Пост Вадима (wertner) от 10.11.2008 (с Родства)---------------------------------------------------------------------------------------
Хочу представить свой метод построения дерева. Суть его заключается в ручном редактировании дерева и оценке правильности деревьев до и после редактирования.
Возможно, есть и новое в этом методе –оценка правильности деревьев (хотя возможно, это изобретение велосипеда – уж очень очевидная формула), а также сочетание ручного редактирования с оценкой успешности изменения.
Свои формулы буду демонстрировать на МакДональдах R1a, потомках Сомерленда (
http://dna-project.clan-donald-usa.org/DNAresults.htm). В один пост не управлюсь, поэтому буду рассказывать поэтапно.
Продемонстрирую подсчет возраста ближайшего общего предка двух пар МакДональдов, которые внутри пары отличаются друг от друга на одну мутацию, без учета возвратных мутаций. И покажу, что возраст не зависит от скорости мутации, используя скорости Чандлера (чтобы избежать ненужных споров, хотя и остаюсь противником методов их расчета).
Первой парой будут W.O. McDaniel(&2QF9S) и D. McDaniel(&642PV), которые отличаются друг от друга на мутацию в маркере CDY b. Второй парой будут W.H. McDaniel (&SVKFL) и B.G. McDaniel (&PDDRM), которые отличаются друг от друга на мутацию в маркере DYS 537.
Скорости мутаций CDY b и DYS 537 по Чандлеру равняются 0,03531 и 0,00057 мутаций на поколение и отличаются в 60 раз.
Скорей всего, гаплотип общего предка первой пары совпадает с одним из их двух гаплотипов и соответственно, отличается от другого на одну мутацию.
Рассмотрим такой набор гипотез: гипотеза 1 – это предположение, что их общие предок жил поколение назад, т.е. был их отцом, гипотеза 2 – то, что общие предок жил два поколения назад и так далее, в общем случае, гипотезы N, что ближайший общий предок жил N поколений назад.
Для каждой гипотезы посчитаем вероятность ее осуществления, пока не используя факт, что одна из них точно осуществилась. Т.е. априорную вероятность.
Для гипотезы 1 (ближайший общий предок - отец): вероятность того, что за одно поколение не произошло мутаций равняется произведению 67 вероятностей не-мутации (т.е. не-мутации) в каждом маркере. Не буду приводить весь ряд, но вот его начало и конец [Вероятность отсутствия мутаций в одном поколении] = (1-0,00076)*(1-0,00311)*…*(1-0,00087) = 0,797746589733803. Вероятность того, что произошла мутация в маркере CDY b и только в нем равна произведению вероятностей мутации в маркере CDY b (0,03531) и вероятностей не-мутации в 66 остальных маркерах: (1-0,00076)*(1-0,00311)*…* 0,03531*…*(1-0,00087) = 0,029199465.
Вероятность того, что у отца двух сыновей у одного сына не было мутаций, а у другого сына была мутация в маркере CDY b равна произведению этих вероятностей: 0,797746589733803 * 0,029199465 = 0,023293774.
Для гипотезы 2 (ближайший общий предок - дед): вероятность того, что за два поколения не произошло мутаций равна квадрату вероятности отсутствия мутаций в одном поколении: 0,797746589733803*0,797746589733803. Что же касается мутации в CDY b, то она могла произойти два поколения назад или одно поколение назад – тогда у общего предка (деда) были два сына с совпадающим с ним гаплотипом, а у одного из внуков уже произошла мутация. Т.е. генеалогические линии уже разошлись, но мутация наступила позже. Вероятность того, что за два поколения произошла мутация в CDY b будет произведением вероятности того, что в одном поколении (от деда к отцу) была мутация в маркере CDY b и только в нем, вероятности того, что в одном поколении (от отца к сыну) не было мутаций, т.е. 0,029199465*0,797746589733803 и количества таких вариантов = 2 (мутация была в первом поколении или во втором). Общая вероятность гипотезы: 0,797746589733803*0,797746589733803*0,029199465*0,797746589733803*2 = 0,029648298.
Аналогично подсчитываем вероятность для гипотезы 3 (ближайший общий предок - прадед): вероятность того, что за три поколения не произошло мутаций равна кубу вероятности отсутствия мутаций в одном поколении: 0,797746589733803*0,797746589733803*0,797746589733803. Что же касается мутации в CDY b, то она могла произойти три, два, одно поколение назад. Вероятность того, что за три поколения назад произошла мутация в CDY b будет произведением вероятности того, что в одном поколении (от прадеда к деду) была мутация в маркере CDY b и только в этом маркере, вероятности того, что в двух поколениях не было мутаций количества таких вариантов (3), т.е. 0,029199465*0,797746589733803*0,797746589733803*3. Общая вероятность гипотезы: 0,797746589733803*0,797746589733803*0,797746589733803*0,029199465*0,797746589733
803*0,797746589733803*3 = 0,028302248.
Аналогичны вычисления для остальных гипотез. Обращаю внимание, что при переходе к каждой последующей только добавляется умножение на квадрат вероятности не-мутирования гаплотипа (0,797746589733803*0,797746589733803) и меняется коэффициент равный количеству возможных моментов мутаций на одной из ветвей (1,2,3 и т.д. для соответствующих гипотез). Эти изменения не зависят от скорости мутации маркера CDY b.
Известно, что одна из этих гипотез воплотилась. Значит, для расчета вероятности гипотезы с учетом этого факта (т.е. апостериорной вероятности) по теореме Байеса (
http://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D0%B5%D0%BC%D0%B0_%D0%91%D0%B0%D0%B9%D0%B5%D1%81%D0%B0) надо поделить априорную вероятность гипотезы на сумму априорных вероятностей всех гипотез.
Я не стал выводить/искать формулу суммы такого ряда, а просто взял сумму вероятностей гипотез от 1 до 300 (априорная вероятность гипотезы, что общий предок жил 300 лет назад равнялась 8,19622E-58).
Сумма всего вероятностей этих 300 гипотез равняется 0,176194034.
Теперь делим априорные вероятности на это число, и получаем соответственно нужные нам апостериорной вероятности:
Гипотеза 1: 0,023293774 / 0,176194034 = 0,132205235 = 13,22%
Гипотеза 2: 0,029648298 / 0,176194034 = 0,168270723 = 16,83%
Гипотеза 3: 0,028302248 / 0,176194034 = 0,160631137 = 16,06%
Гипотеза 4: 0,024015387 / 0,176194034 = 0,136300793 = 13,63%
Гипотеза 5: 0,019104229 / 0,176194034 = 0,108427216 = 10,84%
Гипотеза 6: 0,014589509 / 0,176194034 = 0,082803647 = 8,28%
Гипотеза 7: 0,010832217 / 0,176194034 = 0,061478911 = 6,15%
Гипотеза 8: 0,007878422 / 0,176194034 = 0,044714464 = 4,47%
Гипотеза 9: 0,005640553 / 0,176194034 = 0,032013301 = 3,20%
Гипотеза 10: 0,003988495 / 0,176194034 = 0,022636948 = 2,26%
Гипотеза 11: 0,002792104 / 0,176194034 = 0,015846759 = 1,58%
Гипотеза 12: 0,00193843 / 0,176194034 = 0,011001678 = 1,10%
Мат. ожидание - 4,50, медиана между 3 и 4 поколениями.
Теперь проведем такие же вычисления для второй пары, с мутацией в маркере DYS 537. Скорость мутации маркера DYS 537 по Чандлеру равняется 0,00057.
Значит вероятность того, что в одном поколении мутация произошла в маркере DYS 537 и только в нем равняется (1-0,00076)*(1-0,00311)*…* 0,00057 *…*(1-0,00087) = 0,000454975.
Соответственно, априорная вероятность гипотезы 1 вычисляется как 0,797746589733803 * 0,000454975 = 0,000362955. Априорная вероятность гипотезы 2 совершенно также вычисляется как 0,797746589733803 * 0,797746589733803 * 0,797746589733803 * 0,000454975 * 2 = 0,000461968. Ну и априорная вероятность гипотезы 3 равняется 0,797746589733803 * 0,797746589733803 * 0,797746589733803 * 0,797746589733803 * 0,797746589733803 * 0,000454975 * 3 = 0,000440995.
Сумма вероятностей всех 300 независимых априорных гипотез равна 0,002745388.
Соответственно, вычисляем апостериорные вероятности для второй пары:
Гипотеза 1: 0,000362955 / 0,002745388 = 0,132205235 = 13,22%
Гипотеза 2: 0,000461968 / 0,002745388 = 0,168270723 = 16,83%
Гипотеза 3: 0,000440995 / 0,002745388 = 0,160631137 = 16,06%
Гипотеза 4: 0,000374199 / 0,002745388 = 0,136300793 = 13,63%
Гипотеза 5: 0,000297675 / 0,002745388 = 0,108427216 = 10,84%
Гипотеза 6: 0,000227328 / 0,002745388 = 0,082803647 = 8,28%
Гипотеза 7: 0,000168783 / 0,002745388 = 0,061478911 = 6,15%
Гипотеза 8: 0,000122759 / 0,002745388 = 0,044714464 = 4,47%
Гипотеза 9: 8,78889E-05 / 0,002745388 = 0,032013301 = 3,20%
Гипотеза 10: 6,21472E-05 / 0,002745388 = 0,022636948 = 2,26%
Гипотеза 11: 4,35055E-05 / 0,002745388 = 0,015846759 = 1,58%
Гипотеза 12: 3,02039E-05 / 0,002745388 = 0,011001678 = 1,10%
Мат. ожидание - 4,50 поколений, медиана между 3 и 4 поколениями.
Итого имеем, что в обоих случаях вероятность того, что ближайший общий предок был одно поколение назад – 13,22%, два поколения назад – 16,83%, три поколения назад – 16,06%, 4 поколения назад – 13,63% и так далее.
Очевидно, что скорость маркера сама по себе не оказывает влияния на возраст ближайшего предка пары, где у одного потомка не было мутаций, а у второго потомка была мутация в этом маркере. Имеет значение только скорость изменения всего гаплотипа. Обычно, если между гаплотипами есть различия в медленном маркере, значит у них есть различия и во множестве быстрых маркеров. Но уж если отличие в медленном маркере сопровождается совпадением в быстрых маркерах, значит эта мутация произошла совсем недавно.