Тема: Family Finder vs GEDmatch (Прочитано 21566 раз)

chelmohotsky · « : 27 Июль 2011, 06:17:52 »

В моем списке совпаденцев на GEDmatch на самом верху стоит человек с недавно полученными результатами FF Illumina теста. У нас с ним полная длина пересекающихся участков 48.3 сМ, самый длинный участок 11.4 сМ, предсказанное генетическое расстояние 4.1. Казалось бы довольно близкий совпаденец, но FF почему-то его не показывает, как не показыавет и меня в его списке. В то же время на верху списка в FF стоит человек с 39.52 сМ и 8.95 сМ соответственно, то есть гораздо более далекий генетически.
Наибольшей длины участок находится на первой хромосоме в самом ее начале. Может FF его не учитывает по каким-то причинам? Или есть какое-то другое объяснение?

Anode · « **Ответ #1 :** 27 Июль 2011, 09:06:14 »

Цитата: chelmohotsky от 27 Июль 2011, 06:17:52

Или есть какое-то другое объяснение?

Я высказывал предположение ( тут), что GEDmatch показывает false-positives, т.е. у него алгоритм немного "баговый", в отличие от.

chelmohotsky · « **Ответ #2 :** 28 Июль 2011, 02:24:55 »

Понятно, значит не у меня одного такое происходит. Спасибо, Anode.

Clavis · « **Ответ #3 :** 28 Июль 2011, 17:24:35 »

Очень важный разговор начат! Я свел вместе УПСы крупнее 1 сМ (чтобы уж все карты на стол) сравнения двух человек в FTDNA и в GEDmatch.com. Неважно, кто это персонально, но если интересно, то это Ершова и Холодилов. Таблички я привел к одному формату (как в GEDmatch.com) и выделил одинаковым цветом случаи, когда УПСы перекрываются.

Я сам удивился, что получилось. Предоставляю комментировать вам.

Anode · « **Ответ #4 :** 28 Июль 2011, 18:48:26 »

Цитата: Clavis от 28 Июль 2011, 17:24:35

Очень важный разговор начат! Я свел вместе УПСы крупнее 1 сМ (чтобы уж все карты на стол) сравнения двух человек в FTDNA и в GEDmatch.com. Неважно, кто это персонально, но если интересно, то это Ершова и Холодилов. Таблички я привел к одному формату (как в GEDmatch.com) и выделил одинаковым цветом случаи, когда УПСы перекрываются.

Я сам удивился, что получилось. Предоставляю комментировать вам.

Что касается меня - пока могу лишь сказать - что алгоритм для вычисления участков полусовпадений у GEDmatch отличается от алгоритма фтдна/23андме/HIR-search.
Ошибка I-го рода у первых явно больше: они "загребают" (показывают) больше упсов (false-positives), но это не значит, что ошибка II рода за счёт этого обязательно уменьшилась. Как видим, GEDmatch пропустил 8 упсов, которые фтдна детектировал. Так что вполне может быть - GEDmatch имеет просто вычислительный баг в программе. Т.е. логика/алгоритм предполагается быть идентичным (т.е. как обходятся no-calls, сколько полных несовпадений разрешается), но реально (по факту) счёт отличается, что и проявляется в результатах.
Какому алгоритму больше доверять - решать Вам.

chelmohotsky · « **Ответ #5 :** 02 Август 2011, 23:04:21 »

Цитата: Clavis от 28 Июль 2011, 17:24:35

Очень важный разговор начат! Я свел вместе УПСы крупнее 1 сМ (чтобы уж все карты на стол) сравнения двух человек в FTDNA и в GEDmatch.com. Неважно, кто это персонально, но если интересно, то это Ершова и Холодилов. Таблички я привел к одному формату (как в GEDmatch.com) и выделил одинаковым цветом случаи, когда УПСы перекрываются.

Я сам удивился, что получилось. Предоставляю комментировать вам.

Спасибо, Clavis, наглядно продемонстрировали отличия. Особенно интересно, что GEDmatch дает огромный перекрывающийся сегмент 13.6 сМ на 14 хромосоме, а ФТДНА только 3.37 сМ! По-видимому, у меня как раз похожий случай на 1ой хромосоме, а все другие совпадения за порогом ФТДНА, поэтому мой "совпаденец" вообще не показан на ФТДНА.
Попросил его загрузить данные на snpology.com, посмотрим, что там получится.

Clavis · « **Ответ #6 :** 03 Август 2011, 05:23:40 »

Добавлю, что в НIRsearch нашлось три УПСа свыше 500 снипов:
Alexandra Yershova Alexander Holodiloff 3
First Person Second Person Genetic Distance Chromosome HIR Start HIR End HIR Length SNPs
Alexander Holodiloff Alexandra Yershova 4.20 4 31715362 36319472 4604110 711
Alexandra Yershova Alexander Holodiloff 11.30 14 20097735 23657636 3559901 1381
Alexandra Yershova Alexander Holodiloff 5.80 22 28918372 33662654 4744282 1389

Всё чудеснее и чудеснее...

Clavis · « **Ответ #7 :** 10 Август 2011, 09:48:30 »

В связи с письмом Олли Силвена я посмотрел УПСы с его тетей в двух алгоритмах сравнения. Здесь FTDNA находит больше УПСов, чем GEDmatch:

chelmohotsky · « **Ответ #8 :** 11 Август 2011, 02:58:47 »

Михаил, у вас похоже пороги разные. В GEDmatch стоит 3 сМ, а в FTDNA, наверное 1 сМ. Главное, самый большой сегмент на 16 хромосоме и тот и другой показывают. Но вообще, эти результаты настораживают. С HIRSearch не сравнивали?

Mich Glitch · « **Ответ #9 :** 11 Август 2011, 07:40:14 »

Ребяты,

Не тратили бы время на УПСы меньше 7 сМ. Наверняка порожняк.

Clavis · « **Ответ #10 :** 11 Август 2011, 07:46:11 »

Цитата: chelmohotsky от 11 Август 2011, 02:58:47

Михаил, у вас похоже пороги разные. В GEDmatch стоит 3 сМ, а в FTDNA, наверное 1 сМ. Главное, самый большой сегмент на 16 хромосоме и тот и другой показывают. Но вообще, эти результаты настораживают. С HIRSearch не сравнивали?

Что верно, то верно - в 16 хромосоме они указывают на один и тот же участок, размер которого близок к 7 сМ, но насколько отличаются границы этого УПСа - это же небо и земля!

По второму вопросу. Д-р Olli Silvén сдал три аутосомных теста: он сам, его мама Helmi и тетя по отцу Eeva-Liisa. Недавно он их поместил в GEDmatch, в связи с чем и написал нам с Александрой Дмитриевной. В HIRsearch я их не нашел. Порекомендую ему этот сайт.

kbg · « **Ответ #11 :** 11 Август 2011, 11:39:33 »

Цитата: Clavis от 11 Август 2011, 07:46:11

в 16 хромосоме они указывают на один и тот же участок, размер которого близок к 7 сМ, но насколько отличаются границы этого УПСа - это же небо и земля!

А как это может быть, ведь ГМ использует данные ФТДНА, разве нет? Почему в одном случае 27-48 мб, а в другом - 46-52 мб??? И про что все это? Про ненадежность ГМ?

Anode · « **Ответ #12 :** 11 Август 2011, 22:34:00 »

Цитата: kbg от 11 Август 2011, 11:39:33

Цитата: Clavis от 11 Август 2011, 07:46:11
в 16 хромосоме они указывают на один и тот же участок, размер которого близок к 7 сМ, но насколько отличаются границы этого УПСа - это же небо и земля!
А как это может быть, ведь ГМ использует данные ФТДНА, разве нет? Почему в одном случае 27-48 мб, а в другом - 46-52 мб??? И про что все это? Про ненадежность ГМ?

Данные одни и те же, но алгоритм (правило, формула) рассчёта - различные. Отсюда и разница.

Рассмотрим 2 генома. Обозначим УПС - участок половинного совпадения с одной ошибкой, а УТС - участок половинного совпадения без единой ошибки (Т - точное полусовпадение, т.е. во всей цепочке хотя бы одна буква совпадает. Пример: АТ и ТТ). Х - несовпадающий биаллель (оба биаллеля не совпадают, т.е. ни одна буква не совпадает: AG и CT).

То что вы видите в фтдна или гедматче - это:
ХХХ<УПС>ХХХ <--1й человек
ХХХ<УПС>ХХХ <--2й человек

упрощённый пример геномов:
АЦАА<УПС>ЦАТТ <--1 аллель, 1й человек
АГТТ<УПС>ЦТЦЦ <--2 аллель, 1й человек

ЦАЦГ<УПС>ТЦАА <--1 аллель, 2й человек
ЦАГЦ<УПС>ТЦАА <--2 аллель, 2й человек

или расписав УПС (на самом деле там тысячи букв в упсе):
АЦАА<АЦ...ГГ>ЦАТТ <--1 аллель, 1й человек
АГТТ<ТЦ...ЦЦ>ЦТЦЦ <--2 аллель, 1й человек

ЦАЦГ<АЦ...ЦГ>ТЦАА <--1 аллель, 2й человек
ЦАГЦ<АГ...ЦГ>ТЦАА <--2 аллель, 2й человек

Видно, что внутри УПСА (угловые скобки не убраны для наглядности) - хотя бы одно совпадение из 2х аллелей присутствует.

Но на самом деле (ведь в участке допустимо одно полное несовпадение! Т.е. один УПС это 2 УТСа - в нашей введённой здесь УПС/УТС терминологии) :

ХХХ<УТС11>Х<УТС12>ХХХ
ХХХ<УТС11>Х<УТС12>ХХХ

т.е. в нашем примере может быть:

АЦАА<АЦ..А..ГГ>ЦАТТ <--1 аллель, 1й человек
АГТТ<ТЦ..Т..ЦЦ>ЦТЦЦ <--2 аллель, 1й человек

ЦАЦГ<АЦ..Ц..ЦГ>ТЦАА <--1 аллель, 2й человек
ЦАГЦ<АГ..Г..ЦГ>ТЦАА <--2 аллель, 2й человек

в центральной позиции ни одна аллель в биаллели (паре) не совпадает! И это нормально, допускается одно полное несовпадение (в отличие от других полусовпадений).

Но так как справа и слева (от УТСов) могут быть ещё мелкие участки полного полусовпадения (заметьте что мы имеем полусовпадения - везде, доставшиеся от этнического фона, то скорее всего будет следующее:

ХХХ<УТС21>Х<УТС11>Х<УТС12>Х<УТС22>ХХХ
ХХХ<УТС21>Х<УТС11>Х<УТС12>Х<УТС22>ХХХ

Теперь так как проверять геном мы можем как слева так и справа, то и разбиений УТСов на УПСы может быть несколько, и различные алгоритмы это могут делать по разному, с разных сторон, и даже начиная с любого из УТСов, в зависимости от порога и как алгоритм пропускает УПСы, не удовлетворяющие порогу:
(круглыми скобками обозначены различные разбиения/группировки утсов на упсы)

1.
ХХХ(<УТС21>Х<УТС11>)Х<УТС12>Х<УТС22>ХХХ
ХХХ(<УТС21>Х<УТС11>)Х<УТС12>Х<УТС22>ХХХ
2.
ХХХ<УТС21>Х(<УТС11>Х<УТС12>)Х<УТС22>ХХХ
ХХХ<УТС21>Х(<УТС11>Х<УТС12>)Х<УТС22>ХХХ
3.
ХХХ<УТС21>Х<УТС11>Х(<УТС12>Х<УТС22>)ХХХ
ХХХ<УТС21>Х<УТС11>Х(<УТС12>Х<УТС22>)ХХХ

Вывод: разные алгоритмы (например ФТДНА и гедматч) могут показывать (определять) один и тот же упс по-разному, например 1 и 2. Или 1 и 3.
В первом случае будем иметь пересечение (как в пример уважаемого Клависа на 16й хромосоме). Во втором случае вообще не будет пересечения, но упс будет соседним, разделяться одним несовпадением.

Поэтому я выступаю за игнорирование границ вообще. И предлагаю считать упсы разными только если они разделены более чем одним аллелем.
На самом деле даже в случае одного и того же алгоритма и более 2х пар с одним общим упсом - нужно быть менее категоричным с опознанием границ упса, так как вообще это всё вероятностный процесс (порядок аллелей матрицей Иллюмины не детектируется, наверняка ошибка матрицы тоже имеет место быть, что вносит вклады в общую ошибку, единичная мутация возможна итд - полусовпадение не случайно же допускается!).
Главное - что УПС у 3х человек есть и это даёт большую вероятность родства. Но чуть более длинный общий упс с одним человеком чем с другим (на том же регионе) может случиться просто так, случайно, из-за единичной мутации у второго, или ошибки детектирования. Вообще, пожалуйста, не судите так строго упсы.

Clavis · « **Ответ #13 :** 12 Август 2011, 08:44:08 »

Спасибо за подробное и доходчивое объяснение!
Кто как, а я не отношусь к УПСам очень строго. Скорее как к лотерейному билету, который может принести большой или малый выигрыш, а может и ничего.

Eugen Hartmann · « **Ответ #14 :** 21 Ноябрь 2011, 12:30:49 »

У меня похоже та же самая проблема. Есть совпаденец на Gedmatch, один участок, длина 38.3. Судя по Kit Nbr (F4354OLSON3) и тип F2 он с FTNDA. Но на FTNDA в Matches он вообще не отображается. Хотя пару недель назад его не было и на Gedmatch....

АвторТема: Family Finder vs GEDmatch (Прочитано 21566 раз)

chelmohotsky

Family Finder vs GEDmatch

Anode

Re: Family Finder vs GEDmatch

chelmohotsky

Re: Family Finder vs GEDmatch

Clavis

Re: Family Finder vs GEDmatch

Anode

Re: Family Finder vs GEDmatch

chelmohotsky

Re: Family Finder vs GEDmatch

Clavis

Re: Family Finder vs GEDmatch

Clavis

Re: Family Finder vs GEDmatch

chelmohotsky

Re: Family Finder vs GEDmatch

Mich Glitch

Re: Family Finder vs GEDmatch

Clavis

Re: Family Finder vs GEDmatch

kbg

Re: Family Finder vs GEDmatch

Anode

Re: Family Finder vs GEDmatch

Clavis

Re: Family Finder vs GEDmatch

Eugen Hartmann

Re: Family Finder vs GEDmatch