АвторТема: GEDmatch.Com - инструмент для генеалогических поисков  (Прочитано 324204 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Naeel

  • Сообщений: 630
  • Страна: ru
  • Рейтинг +50/-2
  • Y-ДНК: R1a1a1b2a2b* L342+ Z94+ L871+ L875+ Z2122+ L657- Z2123- F1345-
  • мтДНК: T2a 16126C 16217C 16294T 16296T 16519C 73G 263G 315.1C
Вчера поступили очередные данные 23andMe, загрузил на gedmatch
довольно быстро вписалось в базу и начало выдавать результат по сравнениям
Сравнил по all RAW data племянника, чья мать моя дальняя родственница по матери
Так GedMatch уверенно выдал, что он родственник к Gen 3-4 по отцовской линии !
Куча совпаденцев - двоюродный брат отца, сам отец, я, мои дети и прочие
23иЯ ничего такого не выдавал, по Family Inheritance.

Сегодня с утра GedMatch оклемался и выдаёт правду - я с племянником Gen 4.6, отцовская линия и близко не совпадает.
А я уже "обрадовал" родственников ...

Что за дела ?  >:(


Оффлайн Шад

  • Главный модератор
  • *****
  • Сообщений: 6334
  • Страна: ru
  • Рейтинг +1330/-4
  • Ex oriente lux
  • Y-ДНК: Q-Y2750
  • мтДНК: J1c2z
Коллеги, прошу дать компетентный совет.
Есть два человека, у которых мамы имеют девичью фамилия Крыгина. В одном случае происхождение известно (Курская область), в другом - неизвестно (война, эвакуация).
На 23иЯ совпадение отсутствует.
В GEDmatch при задании поиска на нестандартных условиях (больше 1 сМ) получены следующие результаты.

По Х-хромосоме:

Можно ли в таком случае сделать вывод о наличии родства?

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Используйте лучше фазированные данные.
В масштабе 1-3 сM больше сегментов носит составной характер и даже если это IBD, то очень древние (времен неолита).

Оффлайн Шад

  • Главный модератор
  • *****
  • Сообщений: 6334
  • Страна: ru
  • Рейтинг +1330/-4
  • Ex oriente lux
  • Y-ДНК: Q-Y2750
  • мтДНК: J1c2z
Используйте лучше фазированные данные.
В масштабе 1-3 сM больше сегментов носит составной характер и даже если это IBD, то очень древние (времен неолита).

Из raw data 23иЯ можно получить фазированные данные?

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Используйте лучше фазированные данные.
В масштабе 1-3 сM больше сегментов носит составной характер и даже если это IBD, то очень древние (времен неолита).

Из raw data 23иЯ можно получить фазированные данные?

Их можно получить как из данных 23ия так и ФФ.
Единственное условие - необходимы данные Ваших ближайших родственников
(например отец и брат матери). Теоретически, при наличии среди протестированных значительного двоюродных и троюродных братьев-сестер от общего предка, можно при грамотной последовательной фазировки получить фазированные генотипы своих прадедов и прабабок.

Я уже и раньше высказывался в пользу фазирования сырых данных 23ия и ФФ.
Теперь имеется практической резон произвести эту процедуру и обычным любителям, так на GedMatch появилась новая опция Upload Your Phased Genotype data.

SageGouse с форумов 23ия создал простую консольную утилиту для фазирования генетических данных близких родственников.

Если интересно, могу дать ссылку на утилиту и краткую инструкцию на английском

Оффлайн Шад

  • Главный модератор
  • *****
  • Сообщений: 6334
  • Страна: ru
  • Рейтинг +1330/-4
  • Ex oriente lux
  • Y-ДНК: Q-Y2750
  • мтДНК: J1c2z
Используйте лучше фазированные данные.
В масштабе 1-3 сM больше сегментов носит составной характер и даже если это IBD, то очень древние (времен неолита).

Из raw data 23иЯ можно получить фазированные данные?

Их можно получить как из данных 23ия так и ФФ.
Единственное условие - необходимы данные Ваших ближайших родственников
(например отец и брат матери). Теоретически, при наличии среди протестированных значительного двоюродных и троюродных братьев-сестер от общего предка, можно при грамотной последовательной фазировки получить фазированные генотипы своих прадедов и прабабок.

Я уже и раньше высказывался в пользу фазирования сырых данных 23ия и ФФ.
Теперь имеется практической резон произвести эту процедуру и обычным любителям, так на GedMatch появилась новая опция Upload Your Phased Genotype data.

SageGouse с форумов 23ия создал простую консольную утилиту для фазирования генетических данных близких родственников.

Если интересно, могу дать ссылку на утилиту и краткую инструкцию на английском

Было бы очень интересно. А на форуме эта тема обсуждалась?

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Было бы очень интересно. А на форуме эта тема обсуждалась?

Да, по крайней мере теоретические аспекты проблемы

http://forum.molgen.org/index.php/topic,1955.0.html

Теперь Вы можете отфазировать свои данные и зааплодить их на Gedmatch или использовать в калькуляторах Додекад.


Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Вот сама утилита (инструкция внутри)
http://www.exploredna.com/files/GenComp1.1.zip

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Если у Вас есть на руках данные так называемых трио (данные генотипов отца, матери и их общего ребенка), то лучше фазировку производить в программе Пайка

http://www.math.mun.ca/~dapike/FF23utils/trio-phase.php

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Наконец, можно производить фазировку данных братьев или сестер по одному из родителей
http://www.math.mun.ca/~dapike/FF23utils/phase-sibs-1parent.php

или по обеим родителям

http://www.math.mun.ca/~dapike/FF23utils/phase-sibs-2parent.php

Оффлайн Шад

  • Главный модератор
  • *****
  • Сообщений: 6334
  • Страна: ru
  • Рейтинг +1330/-4
  • Ex oriente lux
  • Y-ДНК: Q-Y2750
  • мтДНК: J1c2z
Большое спасибо. Некоторые теоретические и практические аспекты прояснились, с остальным нужно разбираться.
А всё же как интерпретировать полученные данные? С точки зрения заданного мною вопроса - как это поможет решить вопрос о родстве двух людей? Позволит ли фазирование отсечь времена неолита и прочие варианты из серии "ваши предки, наши предки на одной сидели ветке"?

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Еще некоторые вопросы связанные с фазированием

http://forum.molgen.org/index.php/topic,2000.0.html

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Видимо надо перепостить свое сообщение из другой темы

                   Наверное, перед тем как не мудрствуя лукаво  приступить к пояснению фазирования данных 23ия, нужно еще раз вкратце  напомнить, по какому алгоритму идет предсказание степени родства в 23ия.

На этот раз, буду краток (с).

Алгоритм  23ия выведен исключительно путем компьютерног моделирования. Бралось  некоторое количество генотипных данных реально протестированных в 23ия  людей. Эти данные искуственно скрещивались с учетом некоего усредненной  величины параметра рекомбинации на один мейоз (или, как у нас принято  выражаться, генеалогического поколения), тем самым появились  искуственные "геномы" (назовем их так для простоты).
 Затем по методу MCMC моделировалась искусственная генеалогия потомков "гибридных геномов" (что-то вроде семьи Менделя),  т.е случайным образом (по методу Монте-Карло) генерировалась некая  марковская цепь генеалогических поколений (последовательность поколений,  в которой последующее состояние зависит только от настоящего состояния и  не зависит «от генеалогического прошлого") разной длины - 4,5,8, 11 и  т.д поколений.  ""Геномы" всех гибридных геномов сравнивались на  предмет а) % общего ДНК b) генетической дистанции сегментов IBD (HIR,  или как у нас принято УПСов) выраженной в сM (сентиморганах) и с)  количества снипов в этих сегментов.

По этим параметрам (а,b,c)  УПСЫ разбивались на кластеры в зависимости от дистанции генома-потомка  от генома-предка. Затем произвели своего рода метафорическую процедуры  "сверку попаданий сегментов"  в интервалы смоделированного родства.
  Именно таким образом, с помощью моделирования, создатели алгоритма RF  получили пороговые количества снипов и генетической дистанции (в сМ) как  для всего диапозона RF, так и для каждого интервала родства (например,  3d-10th cousins).

Эти три параметра и используются в RF для оценки удаленности генетического родства или генеалогической дистанции.

Я  не буду останавливаться здесь на подробной критике алгоритма. Скажу  только, что несмотря на всю привлекательность дизайна MCMC-алгоритма RF ,  его главный недостаток -это

1)допущение случайного характера "скрещивания" (пардон за вульгаризм) среди некой метапопуляции,
2)независимость характера скрещивания от предыдущего типа скрещивания,
3) пренебрежение гомозиготностью и т.д.

Не  говоря уже об использовании некой усредненной величины рекомбинации и  игнорирование естестественного отбора, приводящего к тому, что многие  участки хромосом  из-за сильного генетического сцепления остаются в  нерекомбинантном состоянии на протяжении веков.

Каждый генеалог знает,  что матримониальная стратегия (говоря простым биологическим языком,  структура скрещивания) генеалогических групп  не носит случайный  характер. Выбор партнеров был обусловлен происхождением, классовой  принадлежностью, патрилокальностью, а также религиозными, политическими и  идеологическим запретами.[/]

Каждый генеалог и социальный антрополог знает,  что структура брачных связей в кланновых и патриархальных обществах  в-основном обусловлена структурой предыдущих брачных связей (вспомните  хотя бы т.н. брачные обыски, в ходе которых проверялось,не состояли ли брачующиеся в родстве). Конечно же были и исключения, но они статистически пренебрежимы.

Каждый генетик знает,  что в оседлых популяциях постепенно возрастает гомозиготность, что  ведет к увеличении однородности и генетической близости индивидов внутри  популяции.

Каждый генетик знает, что величина рекомбинации очень сильно варируется -в 10 и 100 раз - в зависимости от участка хромосом

Каждый генетик знает,  что в оседлых популяциях постепенность возрастает гомозиготность (что  есть логичное последствие инбридинга), что ведет к увеличении  однородности и генетической близости индивидов внутри популяции.

Каждый генетик знает,  что существуют геномные регионы - например MHC, со столь сильным  сцеплением, обусловленным отбором, что эти участки могут оставаться  идентичными у двух индивидов, даже если их общий предок жил тысячелетие  назад
                                                                

*****

                   Итак, что имеем в сухом остатке:

1) наличие трех типов "инструментальных" погрешностей в данных генотипов от 23ия
2) сухую абстрактность метода оценки степени родства в алгоритме РФ от 23ия


К этому можно добавить очевидное наличие сегментов УПС с совпаденцами, увеличивающихся в размере при поколенном переходе от родителей к детям, хотя по логике, они должны постепенно затухать,  уменьшаясь в размерах. Самое наличие таких сегментов - великолепная  иллюстрация кумулятивного действия эфектов возрастания гомозиготности и  увеличания фонового уровня "скрытого родства" (на профессиональном  слэнге генетиков -"hidden relatedness" ).

Это наводит на очевидную мысль,  что указание (в РФ алгоритме анализирующем нефазированные данные) на  5-6-юродную степень родства пуштуна и скажем, литовца может с абсолютно  одинаковой степенью вероятности (50% на 50%) означать как наличие  "афганского" следа в родословной литовца (или литовского следа - у  пуштуна), так и очень далекое родство, близкое к случайному совпадению.

Можно ли строить гипотезы на столь шаткой почве? Вряд ли.                                                                
******
На самом деле сам процесс фазирования генотипов подразумевает выявление  (с высокой апостериорной вероятностью) гаплотипной фазы с учетом именно  семейных данных. Обычно в генетических штудиях - как популяционных  (реже),так и медгенетических (намного чаще) - работают с трио  (генотипы матери-отца-ребенка). Но именно коммерческое генотипирование  открывает более широкое поле деятельности для фазирования - получения  более-менее однозначного гаплотипа с более-менее однозначной  генеалогией.

По моим скромным наблюдениям, некоторые клиенты  23ия протестировали уже целые кланы своих родственников по 10-20 человек  (отцов, матерей, братьев, сестер, племянников, дедов, бабок, детей,  двоюродных, троюродных и т.д человек). Среди форумчан в этом хорошем  смысле выделяетсь Вы, Алеш, Юлита, татия и Аббат. Фазирование  генотипных данных больших семейст позволило бы создать, выражаясь  программистским языком, уникальную семейную библиотеку гаплотипов с  четкой ДНК-генеалогической структурой наследования. По мере увеличения  таких семейных библиотек и все большему охвату масс, можно было бы  сравнивать эти гаплотипы уже на уровне семейств/кланов и выстраивать  наиболее вероятные с точки зрения ДНК-генеалогии филогенетические  кластеры.

Пока же все остается на интуитивно-гадательном уровне.

*****

Не совсем так. Фазу гаплотипов можно выявлять и на уровне одной  демографчиеской единицы -например, деревни или скажем Рязанского районе  (разумеется, при достаточно м охвате прогенотипированных лиц).

Сейчас,  при отсутствии полноценных данных по этим регионам и даже фазированных  генотипах  УПС-HIR-IBD совпаденцам, приходится пользоваться намного  более удаленными -в географическом и генеалогичском смыслах -  референсами, типа генотипов проекта 1000 геномов, HGDP или HapMap.
Вот  сравнение с ними, действительно, малополезно с точки зрения исторически  обозримой генеалогии, - и скорее ближе к этнопопуляционному анализу.

******


Вы не  совсем поняли мою мысль. После того как будет получена гаплотипная фаза генотипа, потребность в HIR-ах отпадет.
Поскольку, грубо говоря HIR-УПС  -это полугаплотип с  высоким уровнем структурной неопределенности. Именно эта  неопределенность и есть одна из причин, почему РФ детектирует у детей  большие УПСы, чем у их родителей.






Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Начну несколько издалека - с современного дизайна биочипов панелей  снипов. Нужно вспомнить, что в своей основе биочипы-платформы,  используемые в целях коммерческого тестирования в 23ия и ФТДНА  представляют собой модифицированные варианты стандартных платформ  Иллюмина (23ия) и Аффиметрикс (если я не ошибаюсь, биочип ФТДНА  разработан на основе этой платформы). Дизайн обеих платформ  разрабатывался из целей, далеких от задач ДНК-генеалогии, или скажем, ДНК-криминалистики  (хотя авторы концепции SNP-генотипирования и предполагали смежные  задачи, - например, установление личности индивида). Перед  разработчиками дизайна биочипов и новых методов снип-генотипирования  ставилась четкая задача - разработать платморфму снип-тестирования,  совместимую с  двумя основными методами медицинской генетики
Это метод выявления QTL (выявление участков ДНК, сцепленных с генами, обуславливающими тот или иной фенотипический признак), а также метода генетической ассоциации генетического сцепления или неравновесного сцепления генов ,  когда генетические (фенотипические) признаки двух групп  сравниваются напрямую с ДНК-сиквенсами представителей этой группы.

Поскольку  снипы обычно представляют собой (за исключением редких аллелей  с  частотой двух аллей) вариацию двух аллелей, т.е различаются всего на  один олигонуклеотид, то существенной особеностью сиквенсирования на  биочипах является проблема оптимизировании недостаточной гибридзации  проб, а также потенциальная возможность того, что таргетная ДНК может  гибридизировать несовпадающие снипы. Эта особенность приводит к тому, что результаты генотипирования на биочипах  довольно часто дают болшой процент менделевских ошибок,  т.е тех случаев когда у ребенка присутстовал аллель, который он не мог  унаследовать от родителей (за исключением редкого явления дисомии). Те,  кто пользовались утилитой Дэвида Пайка или посылали свои данные Леону  (napobo3), могли сами убедиться в этом на примере сравнения своих данных  с данными родителей.

Это был первый тип инструментальных погрешностей, вносящих неопределенность в оценку близости или дальности родства.[/] Он связан собственно с процессом гибридизации ДНК. Второй тип инструментальных погрешностей связан собственно с процессом генотипирования индивидуального ДНК. Для  генотипирования на платформе Иллюмины испольузется программа GenCall,  который по байесовской вероятности определяет кластер, к которому  относиться тот или иной локус анализируемого ДНК. Многие из тех  форумчан, кто работал со своими данными от 23ия, наверняка видел т.н  "no-call" генотипы (-) в raw data. "No-call" означает, что программа не  смогла определить генотип (или вернее, кластер к которому относиться  анализируемый локус ДНК).

Наличие этих "пустых" генотипов также вносит свою лепту в увеличение т.н инструментальных погрешностей.


Забудем  на время о существенных инструментальных погрешностях и перейдем к  тому, как 23ия представляет генотипы rs-локусов. Если Вы скачаете файл с  генотипами, то там достаточно стандартное обозначение - сначало идет  название локуса; затем хромосома, на которой находится локус, физическая  дистанция, и наконец - две последние колонки (в NRY и митохондрионе -  одна) с генотипом. Генотип содержит следущие обозначения -олигонуклеотиды A,G,C,T, делеции (D), инсерции (I) и no-calls (-).


В качестве примера

Цитировать
rs759691   3   10502762   CC
rs7619994   3   10502775   AA
rs808933   3   10503910   CC
rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs9873870   3   10514482   CT
rs6442176   3   10520676   CT
rs4234497   3   10528419   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   --

Генотип здесь определяется по локусам, по-этому невозможно сказать, какой именно аллель достался от матери, а какой -от отца.

Неверно  полагать, что нижеприведенный вариант (жирным обозначены аллели  унаследованные, например, от матери) единственно возможный

Цитировать
rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   --



Варианты возможное менделевское наследование аллелей включает в себя все возможные с точки зрения комбинаторики варианты.

Например, вот такой вариант

Цитировать
rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   --

Или  такой

Цитировать
rs17032981   3   10504067   GG
rs17032984   3   10504069   GT
rs2430890   3   10507556   CT
rs799320   3   10508302   TT
rs6807064   3   10510771   CT
rs11719906   3   10511005   CT
rs7629412   3   10528635   CC
rs882527   3   10531104   --


Казалось бы достаточно протестировать одного из родителей, и Вы  сможите реконструировать "цепочку снипов" (по сути гаплотип),  доставшийся Вам от этого родителя. Однако существует такое явление, как  дисомия. Однородительская дисомия, то есть наследование обеих копий  целой хромосомы или ее части от одного  родителя (при отсутствии соответствующего генетического материала от  другого родителя), является исключением из менделевских принципов  наследования.
Однородительская дисомия была описана при муковисцидозе ,  когда оба мутантных аллеля наследовались от одного родителя. В таких  случаях дисомия имитирует аутосомно-рецессивное наследование.

Это -третий тип погрешностей, на этот раз биологического характера [/]

Таким  образом, все вышеназванные погрешности биологического,  биохимически-инструментального и чисто инструментального характера,  приводят исследователей к необходимости фазирования биаллельных  сегментов пар хромосом.

Дальше -про фазирование.

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Большое спасибо. Некоторые теоретические и практические аспекты прояснились, с остальным нужно разбираться.
А всё же как интерпретировать полученные данные? С точки зрения заданного мною вопроса - как это поможет решить вопрос о родстве двух людей? Позволит ли фазирование отсечь времена неолита и прочие варианты из серии "ваши предки, наши предки на одной сидели ветке"?

Ответ очень прост.

С помощью фазирования Вы можете достаточно точно (точность ограничена лишь алгоритмом программы и количеством используемых для фазирования генотипов родственников) определить гаплотипные фазы или гаплоблоки доставшиеся Вам от родителей (дедов,прадедов-бабок).

Определив эти гаплоблоки, Вы можете загрузить их в GedMatch для анализа. Если процедура фазирования будет произведена правильно, то число матчей в таблице сравнений должно уменьшится, поскольку отпадут "составные матчи", о которых много писалось на этом форуме.

И поскольку мы имеем дело с фазированными данными, то можно точно определить с какой стороны имеется совпадение с тем или иным лицом.


По поводу прочего см. мое предыдущее объяснение.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.