Видимо надо перепостить свое сообщение из другой темы
Наверное, перед тем как не мудрствуя лукаво приступить к пояснению фазирования данных 23ия, нужно еще раз вкратце напомнить, по какому алгоритму идет предсказание степени родства в 23ия.
На этот раз, буду краток (с).
Алгоритм 23ия выведен исключительно путем компьютерног моделирования. Бралось некоторое количество генотипных данных реально протестированных в 23ия людей. Эти данные искуственно скрещивались с учетом некоего усредненной величины параметра рекомбинации на один мейоз (или, как у нас принято выражаться, генеалогического поколения), тем самым появились искуственные "геномы" (назовем их так для простоты).
Затем по методу MCMC моделировалась искусственная генеалогия потомков "гибридных геномов" (что-то вроде семьи Менделя), т.е случайным образом (по методу Монте-Карло) генерировалась некая марковская цепь генеалогических поколений (последовательность поколений, в которой последующее состояние зависит только от настоящего состояния и не зависит «от генеалогического прошлого") разной длины - 4,5,8, 11 и т.д поколений. ""Геномы" всех гибридных геномов сравнивались на предмет а) % общего ДНК b) генетической дистанции сегментов IBD (HIR, или как у нас принято УПСов) выраженной в сM (сентиморганах) и с) количества снипов в этих сегментов.
По этим параметрам (а,b,c) УПСЫ разбивались на кластеры в зависимости от дистанции генома-потомка от генома-предка. Затем произвели своего рода метафорическую процедуры "сверку попаданий сегментов" в интервалы смоделированного родства. Именно таким образом, с помощью моделирования, создатели алгоритма RF получили пороговые количества снипов и генетической дистанции (в сМ) как для всего диапозона RF, так и для каждого интервала родства (например, 3d-10th cousins).
Эти три параметра и используются в RF для оценки удаленности генетического родства или генеалогической дистанции.
Я не буду останавливаться здесь на подробной критике алгоритма. Скажу только, что несмотря на всю привлекательность дизайна MCMC-алгоритма RF , его главный недостаток -это
1)допущение случайного характера "скрещивания" (пардон за вульгаризм) среди некой метапопуляции,
2)независимость характера скрещивания от предыдущего типа скрещивания,
3) пренебрежение гомозиготностью и т.д.
Не говоря уже об использовании некой усредненной величины рекомбинации и игнорирование естестественного отбора, приводящего к тому, что многие участки хромосом из-за сильного генетического сцепления остаются в нерекомбинантном состоянии на протяжении веков.
Каждый генеалог знает, что матримониальная стратегия (говоря простым биологическим языком, структура скрещивания) генеалогических групп не носит случайный характер. Выбор партнеров был обусловлен происхождением, классовой принадлежностью, патрилокальностью, а также религиозными, политическими и идеологическим запретами.[/]
Каждый генеалог и социальный антрополог знает, что структура брачных связей в кланновых и патриархальных обществах в-основном обусловлена структурой предыдущих брачных связей (вспомните хотя бы т.н. брачные обыски, в ходе которых проверялось,не состояли ли брачующиеся в родстве). Конечно же были и исключения, но они статистически пренебрежимы.
Каждый генетик знает, что в оседлых популяциях постепенно возрастает гомозиготность, что ведет к увеличении однородности и генетической близости индивидов внутри популяции.
Каждый генетик знает, что величина рекомбинации очень сильно варируется -в 10 и 100 раз - в зависимости от участка хромосом
Каждый генетик знает, что в оседлых популяциях постепенность возрастает гомозиготность (что есть логичное последствие инбридинга), что ведет к увеличении однородности и генетической близости индивидов внутри популяции.
Каждый генетик знает, что существуют геномные регионы - например MHC, со столь сильным сцеплением, обусловленным отбором, что эти участки могут оставаться идентичными у двух индивидов, даже если их общий предок жил тысячелетие назад
*****
Итак, что имеем в сухом остатке:
1) наличие трех типов "инструментальных" погрешностей в данных генотипов от 23ия
2) сухую абстрактность метода оценки степени родства в алгоритме РФ от 23ия
К этому можно добавить очевидное наличие сегментов УПС с совпаденцами, увеличивающихся в размере при поколенном переходе от родителей к детям, хотя по логике, они должны постепенно затухать, уменьшаясь в размерах. Самое наличие таких сегментов - великолепная иллюстрация кумулятивного действия эфектов возрастания гомозиготности и увеличания фонового уровня "скрытого родства" (на профессиональном слэнге генетиков -"hidden relatedness" ).
Это наводит на очевидную мысль, что указание (в РФ алгоритме анализирующем нефазированные данные) на 5-6-юродную степень родства пуштуна и скажем, литовца может с абсолютно одинаковой степенью вероятности (50% на 50%) означать как наличие "афганского" следа в родословной литовца (или литовского следа - у пуштуна), так и очень далекое родство, близкое к случайному совпадению.
Можно ли строить гипотезы на столь шаткой почве? Вряд ли.
******
На самом деле сам процесс фазирования генотипов подразумевает выявление (с высокой апостериорной вероятностью) гаплотипной фазы с учетом именно семейных данных. Обычно в генетических штудиях - как популяционных (реже),так и медгенетических (намного чаще) - работают с трио (генотипы матери-отца-ребенка). Но именно коммерческое генотипирование открывает более широкое поле деятельности для фазирования - получения более-менее однозначного гаплотипа с более-менее однозначной генеалогией.
По моим скромным наблюдениям, некоторые клиенты 23ия протестировали уже целые кланы своих родственников по 10-20 человек (отцов, матерей, братьев, сестер, племянников, дедов, бабок, детей, двоюродных, троюродных и т.д человек). Среди форумчан в этом хорошем смысле выделяетсь Вы, Алеш, Юлита, татия и Аббат. Фазирование генотипных данных больших семейст позволило бы создать, выражаясь программистским языком, уникальную семейную библиотеку гаплотипов с четкой ДНК-генеалогической структурой наследования. По мере увеличения таких семейных библиотек и все большему охвату масс, можно было бы сравнивать эти гаплотипы уже на уровне семейств/кланов и выстраивать наиболее вероятные с точки зрения ДНК-генеалогии филогенетические кластеры.
Пока же все остается на интуитивно-гадательном уровне.
*****
Не совсем так. Фазу гаплотипов можно выявлять и на уровне одной демографчиеской единицы -например, деревни или скажем Рязанского районе (разумеется, при достаточно м охвате прогенотипированных лиц).
Сейчас, при отсутствии полноценных данных по этим регионам и даже фазированных генотипах УПС-HIR-IBD совпаденцам, приходится пользоваться намного более удаленными -в географическом и генеалогичском смыслах - референсами, типа генотипов проекта 1000 геномов, HGDP или HapMap.
Вот сравнение с ними, действительно, малополезно с точки зрения исторически обозримой генеалогии, - и скорее ближе к этнопопуляционному анализу.
******
Вы не совсем поняли мою мысль. После того как будет получена гаплотипная фаза генотипа, потребность в HIR-ах отпадет.
Поскольку, грубо говоря HIR-УПС -это полугаплотип с высоким уровнем структурной неопределенности. Именно эта неопределенность и есть одна из причин, почему РФ детектирует у детей большие УПСы, чем у их родителей.