UPD 2019 Необходимо учитывать: в 2017-2019 годах произошёл переход осуществляющих аутосомное тестирование компаний на новый стандарт - чип GSA. Процесс начался с компании 23andMe, продолжился российскими "Генотек" и "Атлас" и с апреля 2019 на GSA перешли FTDNA и My Heritage. Количество общих снипов между старой и новой версией в зависимости от варианта чипа составляет лишь 30-40%, из-за чего длина общих сегментов заметно завышается. В среднем завышение на один сегмент составляет считаные сМ, однако иногда при кроссплатформенном сравнении начали появляться и длинные общие сегменты - по 20-30 сМ там, где их раньше не было. Приведённые ниже цифры границ генеалогически значимых сегментов корректны для сравнений внутри одной платформы, к одиночным длинным кроссплатформенным общим сегментам стоит относиться с осторожностью. К сожалению, насколько мне известно, в явном виде информацию об использованном чипе для каждого генома даёт лишь Gedmatch.
Дополнительной проблемой стали загрузки некорректных файлов, когда в базу данных компании попадает искусственно обработанный геном. В некоторых случаях такие образцы оказываются "родственниками" очень многим участникам. Технически возможно создать файл, который будет "родственником" абсолютно каждому. Видимо, в некоторых случаях получается что-то подобное - в результате ошибки, чьего-то эксперимента или негодности исходного генома для трансфера.
Вопрос: Есть дальнее пересечение с "кузеном". Как определить наиболее вероятную степень родства?
Ответ: Для дальних родственников зачастую не стоит брать в качестве опоры приведённые предикты, надо смотреть количество общих сегментов самостоятельно. В качестве генеалогически значимых берутся сегменты не менее 10 сМ, прибавляемый FTDNA и другими "этнофон" (сегменты 1-9 сМ)
отбрасываем. Возможные варианты:
а) Есть один общий сегмент. Возможная степень родства - от 4-юродности до неопределенно далекой. Если сегмент более 20-30 сМ, то верхняя граница перестает быть неопределенной, но точное значение здесь посчитать сложно, нет нужной статистики.
Кстати, при отсутствии общих сегментов возможная степень родства ровно такая же - от 4-юродности до неопределенно далекой
б) Есть два общих сегмента. Возможная степень родства - от 4-юродности до 7-юродности, если оба сегмента по одной предковой линии. Но доказательств этого нет, поэтому вполне возможна комбинация из двух вариантов а) с объединением родства по двум линиям
в) Есть три общих сегмента. Либо 4-6-юродность (когда все три по одной линии), либо комбинации а) и б) (а+а+а, а+б)
г) Есть четыре общих сегмента. Либо 3-5-юродность, либо возможны различные комбинации а), б), в)
И так далее. Понятно, что когда сегментов много, они почти наверняка все или почти все по одной линии (здесь не берем замкнутые популяции типа малых и некоторых средних народов). Но случаи а), б), в), строго говоря, все относятся к категории родства неопределимой степени.
Вопрос: Как правильно подсчитать количество поколений до ближайшего общего предка в сложных случаях?
Ответ: При сравнении двух персон усредните количество поколений до их ближайших общих предков. Например, сравниваем дядю и внучатого племянника:
Ближайшие общие предки (супруги)
/ \
дядя брат дяди
\
племянник
\
внучатый племянник
Здесь рассматривается случай, когда ближайшие общие предки - супружеская пара. У первого сравниваемого расстояние до них 1 поколение, у второго - 3 поколения. В среднем получаем (1+3)/2 = 2 поколения, то есть уровень аутосомного родства аналогичен случаю двоюродности.
Однако если бы в рассматриваемом примере дядя и его брат были не полными братьями, а единокровными либо единоутробными (то есть общий отец, но разные матери, либо общие матери, но разные отцы), то к результату необходимо было бы добавить еще половину условного поколения - итого 2.5.
Если родство идет сразу по нескольким линиям, то более далекими обычно можно пренебречь в расчетах. В общем виде два пересечения одного уровня дают снижение суммарного расстояния на половину поколения от этого уровня, четыре - на одно поколение. Для снижения расстояния на два поколения нужно уже 16 пересечений.
Вопрос: До какой степени родства оно обязано определиться при проведении аутосомного теста?
Ответ: Согласно
расчетам, наличие родства вплоть до троюродного обязано проявиться с вероятностью, близкой к 100%. Наличие 4-юродного родства проявляется с вероятностью около 98%, 5-юродного - около 75%, 6-юродного - около 35%, 7-юродного - около 10%. При этом с определением степени (а не собственно факта наличия) родства все гораздо сложнее (см запись в начале сообщения).
Вопрос: Почему Gedmatch записывает множество иностранцев в мои 4-5-юродные "кузены"? В отличие от FTDNA, 23andMe, Ancestry.com они используют слишком оптимистичную формулу для расчета?
Ответ: Формула везде одна (логарифмическая от доли общих сегментов), и она не то, чтобы слишком оптимистичная - просто применяется не по назначению. Этим методом можно посчитать, при каком уровне родства имеющееся количество общих сегментов будет наиболее вероятно. Однако это совсем не то же самое, что подсчитать, какой уровень родства наиболее вероятен при имеющемся количестве общих сегментов.
Пример - если известно, что некто - мой двоюродный брат, то с вероятностью примерно 1/4 его фамилия совпадает с моей (если наш ближайший общий мужской предок - дед по моей отцовской линии (вер. 1/2) и у брата тоже родство по отцовской линии (вер 1/2), то почти наверняка совпадает (итоговая вероятность 1/2*1/2=1/4). Сменами фамилий пренебрежем). Однако делать из этого вывод, что если у кого-то фамилия совпадает с моей, то с вероятностью 1/4 он мой двоюродный брат, явно нельзя. Вот так и считают
Поскольку компанию, занимающиеся коммерческими тестами, вынуждены в большей степени отвечать за предоставляемую информацию, чем некоммерческий Gedmatch, они ввели в выводимые результаты поправки, и вместо "4.5 поколений" показывают что-то вроде "родство от 4-юродного до неопределенно далекого".
Вопрос: И все же, если вероятность проявления родства так быстро падает при увеличении количества поколений до ближайшего общего предка, почему количество показанных дальних родственников настолько велико?
Ответ: Хотя вероятность проявления родства в каждом отдельном случае невелика, количество этих случаев огромно. К тому же с этнически близкими нам людьми мы обычно связаны дальним родством не по одной предковой линии, а по множеству. Особенно сильно это проявляется для небольших, исторически относительно замкнутых народов (хорошо известны примеры евреев-ашкенази и финнов Финляндии, но есть и намного более яркие случаи). Родство русских с западноевропейцами более древнее, зато их и протестировано больше всех.
Более подробно вопрос исследован в одной из моих старых
заметок.
Вопрос: А может, эти общие сегменты - просто участки ДНК, где рекомбинация происходит очень редко? Реликтовые гаплоблоки?
Ответ: Такие участки действительно существуют, однако в норме не должны оказывать сильного влияния на итоговый результат благодаря использованию для измерения длины сегментов условных единиц - сантиморганов (сМ). Дело в том, что длина в сМ отображает именно вероятность рекомбинации (на участке длиной 1 сМ эта вероятность составляет 1%). Участок ДНК, состоящий из большого количества базовых пар (то есть в реальности длинный), но редко рекомбинирующий, в сантиморганах будет показан совсем коротким.
Согласно законам теории вероятностей, часть сегментов размером 5-15 сМ (о более мелких нет смысла и говорить - их неимоверное количество) должна передаваться на протяжении многих поколений, и в этом смысле они действительно являются реликтовыми гаплоблоками. Однако составить их карту невозможно из-за индивидуальности каждого случая.
На форуме приводился пример участка длиной, если не изменяет память, около 8 сМ, на котором у многих форумчан есть большое количество "кузенов". Возможно, здесь мы имеем случай неточности используемой ДНК-карты и его длина в сМ на деле должна быть заметно меньше. Также известно, что "проблемными" в этом смысле являются участки, прилегающие к центромере ("перетяжке" на хромосоме).
Вопрос: Почему при сравнении двух идентичных результатов Gedmatch показывает расстояние в 1 поколение? Должно ведь быть 0 поколений (полное совпадение)?
Вопрос: Почему показанное расстояние между родными братом и сестрой превышает 1 поколение?
Вопрос: Почему показанная сумма общих сегментов между братом и сестрой составляет лишь около 3/4 от суммы между родителем и ребенком, вместо 100%?
Ответ: Ради упрощения алгоритма Gedmatch не отличает участки полного совпадения от участков половинного совпадения. В результате расстояние между близнецами (или просто двумя загрузками одного и того же генома - полное совпадение по всей длине) выглядит, как расстояние между родителем и ребенком (половинное совпадение по всей длине). Кроме того, расстояние между братьями/сестрами (полное совпадение примерно по 1/4 длины и половинное примерно по 1/2 длины) получается чуть выше единицы (около 1.2). На все остальные случаи это не влияет (длинные участки полного совпадения там почти не попадаются).
Для одной пары хромосом это выглядит примерно так:
В хромосомном браузере каждая пара отображается лишь одной полоской (здесь она показана, как нижняя хромосома в паре).
Вопрос: Почему вы отбрасываете малые сегменты? Они тоже говорят о родстве.
Ответ: О родстве говорят не только малые сегменты, но даже и любой отдельно взятый снип (хотя это родство может оказаться еще обезьяньих времен). Однако практического смысла для генеалогии эти пересечения не несут - на таком далеком уровне все мы многократные родственники. Сегменты уровня 4-5 сМ можно обнаружить при сравнении любых двух случайно выбранных русских на Gedmatch. 6-8 сМ уже встречаются реже, но все равно достаточно часто. Следовательно, наличие или отсутствие таких сегментов не может служить доказательством родства генеалогического уровня. В качестве границы условно взято значение 8-10 сМ, более уверенно о генеалогической значимости можно говорить начиная от 15-20 сМ . Цифры приведены для восточных славян, у некоторых народов граница может проходить выше (иногда заметно выше) или ниже. Для большинства европейцев она должна быть близка к приведенной.
Вопрос: У меня и моего отца есть общий сегмент с родственником на одном и том же участке, однако мой сегмент чуть длиннее. Как такое возможно, ведь при передаче детям сегменты должны или уменьшаться, или оставаться неизменными?
Ответ: Это так называемый "составной сегмент". При генотипировании на чипе нет возможности определить, от кого из родителей получен тот или иной генетический вариант (хотя нередко мы можем узнать это путем сравнения с результатами родителей). Поэтому если вы получили от одного из родителей общий сегмент с "кузеном", но на участке, прилегающем к одному из его окончаний, есть небольшой дополнительный сегмент (а таких микросегментов огромное количество), полученный со стороны второго родителя, алгоритм сравнения оказывается не в состоянии определить, что это два разных сегмента и отображает их, как один более длинный, объединенный.
На деле почти любой общий сегмент в какой-то степени "составной", однако дополнительная часть обычно невелика и на конечный результат практически не влияет. Чтобы еще больше запутать ситуацию, в некоторых случаях рекомбинация может привести к реальному объединению двух сегментов в один (но это редкость).
Вопрос: Как определить, по линии какого из родителей идет родство?
Ответ: Для этого необходимо привлечение дополнительных данных. Используя лишь результаты вашего генотипирования, обычно достоверно определить направление родства невозможно, поскольку информации, от кого из родителей получен тот или иной участок, там нет. Тестируйте родственников, чем больше протестируете, тем лучше. При анализе необходимо учитывать, что с родственниками вас объединяет лишь часть генома (например, с двоюродным братом/сестрой совпадает лишь около 1/8). Поэтому если у вашего родственника нет пересечения с дальним "кузеном", это еще не значит, что родство не может идти по общей с ним линии. Его можно исключить лишь в случае, когда с родственником и дальним "кузеном" у вас пересечение на одном и том же участке, но при этом у родственника пересечения с "кузеном" на этом же участке нет.
Еще один путь - анализ родственных пересечений "кузенов" между собой. Если они родственны между собой, с высокой вероятностью родство с ними всеми идет по одной и той же линии (на форуме упоминалось, что сейчас происходит разработка предназначенных для подобного анализа программных средств).
Многочисленные варианты, основанные не на генетике, а на логике и здравом смысле, здесь рассматривать не буду (например, "кузен" происходит из деревни, расположенной по соседству с родной деревней вашей бабушки. Или предки из разных этносов и "кузен" происходит из одного из них. И так далее).
Вопрос: Как учитывать родство по X-хромосоме?
Ответ: Общие сегменты по X-хромосоме нужно учитывать наравне с аутосомными сегментами и на тех же основаниях. Специфика лишь в том, что от отца к сыну (ММ) X-хромосома не передается, а при передаче ЖМЖ (бабушка-отец-дочь) в среднем звене рекомбинация не происходит, как если бы передача происходила непосредственно от бабушки к внучке. Следовательно, в первом случае X-хромосомное родство по линиям с такими звеньями (отец-сын) невозможно, а во втором среднее звено (мужское поколение) при расчете количества поколений до общего предка по X-хромосомному родству в каждом из подобных случаев необходимо исключить. Например, при передаче участков X-хромосомы по пути ЖМЖМЖЖЖ прошло 6 реальных поколений, но "расчетных" только 4 (количество женщин в цепочке, кроме последней).
Вопрос: У женщин две Х хромосомы - одна от матери другая от отца ( по сути от бабушки по отцу), но одна хромосома инактивирована и образует тельце Барра. Значит, при тестировании мы видим только одну активную Х? Это рекомбинированная х состоящая из кусков х хромосом матери и бабушки.
Ответ: В большинстве клеток одна из X-хромосом действительно инактивирована, однако выбор хромосомы из пары происходит случайно. Поэтому в половине клеток активна одна хромосома, в половине - другая, благодаря чему обе они доступны для прочтения.
Вопрос: Не поможет ли в деле повышения точности определения уровня родства внедрение полногеномного секвенирования? Ведь при этом геном будет читаться с гораздо большей детализацией.
Ответ: Если и поможет, то очень незначительно. Проблема не в точности определения границ общих участков генома (для практических целей точности, достигнутой при генотипировании на чипах, вполне достаточно), а в том, что при достаточной удаленности "кузенов" становится очень трудно понять, от какого именно общего предка получен тот или иной участок. Точно так же внедрение GPS позволило поднять точность определения координат, но переворота в географии не произвело - допустим для примера, что ранее мы знали координаты вершины горы с точностью до ста метров, а теперь с точностью до метра. Гора на другой континент от этого не переехала.
Что еще полезно знатьЧастота рекомбинации у мужчин и женщин заметно отличается (у женщин выше в полтора-два раза). При родстве по линии ЖЖЖЖ следует ожидать большего количества общих сегментов (но сами они при этом будут в среднем короче), а при родстве по линии ММММ общих сегментов будет в среднем меньше, однако большинство из них окажется длиннее. Следовательно, длина сегмента в сантиморганах сМ (отражающая вероятность его рекомбинации) является довольно условным показателем, выведенным для среднестатистического случая. Вдобавок, на вероятность рекомбинации могут влиять и другие особенности человека, не только пол.
Хотя от каждого из родителей мы получаем ровно 50% аутосомного генома, вклад дедушек и бабушек уже довольно неравномерен (поскольку успел перемешаться в родителях). Вполне реален вариант наподобие 13% + 37% + 22% + 28%, хотя чаще значения будут все же в пределах 20-30% от каждого из предков этого уровня. Соответственно, вклад прадедушек и прабабушек будет еще более неравномерен и так далее. Более подробно смотрите
здесьДля относительно близких степеней родства вероятности наглядно отображены на графике
ОЧЕНЬ полезная статья: http://thednageek.com/the-limits-of-predicting-relationships-using-dna/
При использовании обязательно имейте в виду, что на графике не учтен "этнофон" (для восточных славян он добавляет к результатам FTDNA около 30-50 сМ при дальнем родстве, для некоторых других народов добавка может быть заметно большей).