АвторТема: калькулятор TMRCA  (Прочитано 8056 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн golodАвтор темы

  • Сообщений: 25
  • Рейтинг +2/-0
    • фамильный сайт Голодяевых
  • Y-ДНК: N1C
калькулятор TMRCA
« : 13 Июнь 2011, 13:35:45 »
Уважаемые корифейники. Прошу подсказать ясный пошаговый механизм работы с калькулятором TMRCA. Что-то я запутался. Параллельно возникает множество вопросов, но не все сразу, постепенно разберемся. Как получить конечный результат?

1.   Беру данные выборки с  ysearch.org
•   Голодяев
•   Гаврилов - 50 совпадений из 67
2.   Ввожу данные в калькулятор http://dna-project.clan-donald-usa.org/tmrca.htm
3.   Скорость мутаций беру по предложению калькулятора  - 0,0028 (или другую надо? Клестов говорит о 0,145)
4.   Ставлю галочку в кумулятивную вероятность (или не надо?)
5.   Создаю список
6.   Как читать данные? Читал, что «при совпадении географического фактора (все из одной страны), можно будет взять вероятность 75%. Если же вдобавок к географическому фактору совпадает и именной (т.е. фамилии похожи), то вероятность можно взять 50%. Если именной и географический фактор у нас не совпадает (фамилии и место жительства разные) - берем вероятность увеличиваем порог вероятности до 90 процентов. Это так?
7.   Берем вероятность 75%. Где 75% в полученном списке? «в одном случае берётся просто доверительный интервал. А в другом доверительный интервал + доверительный интервал от доверительного интервала.  Иными словами, в одном случае имеем просто 50%, а в другом 50% + 50% от 50% = 75%.» В каких случаях?
8.   Ниче не понял. Ищу в колонке Cumulative 75%. Есть 0,075 и 0,754. Что взять? Два года назад считал, что 0,075, а теперь все забыл и засомневался. Возьму 0,754 (типа 75,4 %). В первой колонке получается 127.
9.   Делю число на 2, получаю 63,5 поколения назад
10.    Умножаю на 30 лет (или 25, или 32?) – получаю1905 лет назад от средней даты их рождения.
Что-то очень сомневаюсь в правильности своего расчета.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: калькулятор TMRCA
« Ответ #1 : 13 Июнь 2011, 14:52:46 »
С матчами Вы разобрались (в приведённом случае 50 из 67).
Скорость берите 0.0021. "Клёсовских" 0.145 - это скорость на весь 67 маркерный гаплотип. 0.145 / 67 = 0.02164179 мутации на маркер на поколение.
Галочку в кумулятивной вероятности поставили правильно.
По поводу интервалов поясню позже. Допустим, остановились на 75%. Арифметика подсказывает, что 0.075 - это 7.5%, а вот 0.754 - это 75.4%.
Если использовать скорость 0.0021, то для 75% порога получаем 168-170 переходных событий, или около 85 поколений.
Даже при 25 годах на поколенный интервал, имеем ВБОП 2125 лет.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: калькулятор TMRCA
« Ответ #2 : 13 Июнь 2011, 14:55:38 »
Про поколенные интервалы.
На генеалогическом интервале (до 500 лет тому назад) однозначно надо брать интервал в 30 лет на поколение.
Если глубже (то есть там, где никто не проверял, да и не проверит явно), то можно умозрительно укоротить до 25 лет.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: калькулятор TMRCA
« Ответ #3 : 13 Июнь 2011, 15:07:37 »
Про доверительные интервалы (куммулятивную вероятность).
Для каждого ВБОП имеем свою событийную (я её называю "пиковой") вероятность.
Например для Вашего примера максимальная пиковая вероятность равна 1.17% и соответсвует она 70 поколениям. Т.е. напротив 140 стоит в первом столбце 0.01170.
Иными словами, с вероятностью 1 к 85.47 (т.е. 100 / 1.17) имеем ВБОП именно в 70 поколений.
Доверительный интервал (тоже прошу не цепляться к формальной правильности применяемого мною термина) в 75% означает, что с вероятностью 1 к 1.33 все ВБОПы расположены не далее 85 поколений.
Остаётся 25% вероятность, или 1 к 4, что дальше 85 поколений.
Один из четырёх - много это, или мало?
Даже если взять доверительный интервал в 95%, то всё равно не охваченными останутся 5% случаев. Или каждый случай из 20.
Грубо говоря, если выборка будет в 100 сэмплов, то по 5 образцам времена будут исчислены неверно.

Основной вывод: прикидки делать можно, категоричности выводов следует избегать.
Сказанное, впрочем, в равной степени относится и к филогенетическим построениям.

:)

Оффлайн golodАвтор темы

  • Сообщений: 25
  • Рейтинг +2/-0
    • фамильный сайт Голодяевых
  • Y-ДНК: N1C
Re: калькулятор TMRCA
« Ответ #4 : 13 Июнь 2011, 17:40:59 »
Большое спасибо за помощь, Mich Glitch
По калькулятору разобрался. Посчитал и других.
А вот последнему посту про доверительный интервал пока не осмыслил. Если это +/- от ВБОП, то как-то очень широко. При ВБОП 85 поколений доверие +/- 35 (70/2)? Т.е., не исключается что может быть и 50 и 120 поколений. Правильно я понимаю?

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: калькулятор TMRCA
« Ответ #5 : 13 Июнь 2011, 23:57:34 »
А вот последнему посту про доверительный интервал пока не осмыслил.

Рассмотрим на конкретном примере.
Я своему покойному отцу успел сделать только 43 соренсоновских маркера.
42 совпали.
По 1 расхождение.
Итак имеем:
Number of markers 43.
Number of markers that match 42.
SMGF STR set (no 464)     0.0021. Хочу ещё раз особо подчеркнуть, что я использую 0.0021 мутации на маркер на поколение не из-за "возвратных мутаций" прости-господи; не потому, что Клёсов что-то на пальцах насчитал (ну, пусть не на пальцах, а на счётах); а потому как это цифирь получена наибольшим количеством сравнений пар отец-сын в лаборатории Соренсона. С этой скоростью в упряжке идёт поколенный интервал где-то в 32 года на поколение (ссылки уже 100 раз давал), который я округляю до 30 лет, так как вываливаюсь частенько за пределы генеалогического интервала (500 лет от наших дней).
Получаем следующую табличку:


Tr. Event.    Probability   Cumulative

        1         0.00729        0.007

        2         0.01333        0.021

        3         0.01829        0.039

        4         0.02231        0.061

        5         0.02550        0.087

        6         0.02799        0.115

        7         0.02987        0.145

        8         0.03122        0.176

        9         0.03213        0.208

      10         0.03265        0.241

      11         0.03285        0.273

      12         0.03277        0.306

      13         0.03247        0.339

      14         0.03198        0.371

      15         0.03134        0.402

      16         0.03058        0.433

      17         0.02972        0.462

      18         0.02878        0.491

      19         0.02778        0.519
...

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: калькулятор TMRCA
« Ответ #6 : 14 Июнь 2011, 00:01:17 »
Разбираемся с пиковой вероятностью.
Итак, вероятность того, что ВБОП равен 11 переходным событиям равна 0.03285 (3.285%, если что :) ). Это максимальная пиковая вероятность для наших исходных данных.
То есть, можно сказать, что наиболее вероятно ВБОП равен 5.5 поколениям.
Да вот только это "наиболее вероятно" означает вероятность 1 к 30 с хвостиком.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: калькулятор TMRCA
« Ответ #7 : 14 Июнь 2011, 00:18:57 »
Возвращаемся опять к табличке:

Tr. Event.    Probability   Cumulative

        1         0.00729        0.007

        2         0.01333        0.021

        3         0.01829        0.039
...

Вероятность того, что ВБОП составляет один поколенный интервал (я трактую Transition Event именно так, и другим советую; естественно, разница в "физических смыслах" мне прекрасно понятна; но величины совпадают на 100%, посему не буду Вам голову забивать). Повторю фразу целиком. Вероятность того, что ВБОП составляет один поколенный интервал равна 0.00729 ( округлённо 0.7%). Или 1 к 137 с копейками.

*** Уйду немного в сторону. Как видите, у меня с отцом этот не очень большой шанс выпал. (Между отцом и сыном - 1 поколенный интервал. Между двумя братьями - два поколенных интервала, или 1 поколение до ближайшего общего предка.)

Вероятность события (пиковая вероятность) того, что ВБОП составляет одно поколение равна 0.01333.

Куммулятивная вероятность для ВБОП в 1 поколение при дискрете в один поколенный интервал состоит из пиковых вероятностей для двух событий:
1) ВБОП в 1 поколенный интервал - 0.00729
2) ВБОП в 2 поколенных интервала - 0.01333

Иными словами, 0.00729 + 0.01333 = 0.02062, или округлённо 0.021.

Говоря иначе, с вероятностью 0.021 (2.1%) наш ВБОП не превышает одно поколение (два поколенных интервала).

Берём приплюсовываем вероятности для всех последующих событий.
Для 50% доверительного интервала имеем следующее наиболее близкое значение:
18         0.02878        0.491

Т.е. 50% вероятность того, что ВБОП не превышает 9 поколений.
Верно и обратное, 50% вероятность того, что ВБОП превышает 9 поколений.

Имеем совпадающий географический фактор (отец мой родом как и я из СССР, а не с Марса) и именной фактор (фамилия-то у нас одна). Так что использование 50% вполне оправдано. Но, как Вы наверно отметили, тут проявили сообразительность а-ля "задним умом крепки".

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: калькулятор TMRCA
« Ответ #8 : 14 Июнь 2011, 00:30:43 »
Рассмотрим ещё один конкретный примерчик.
Уважаемый парово3 имеет полного 67 маркерного совпаденца.
Фамилии не совпадают.
Страны не совпадают тоже.
Но имеем у обоих принадлежность к ашкеназам. Т.е. можно говорить о совпадающем географическом факторе.
Короче, допустим заложились мы на 75%.
Наиболее вероятно, что имеем ВБОП в один поколенный интервал (т.е. пару отец-сын).
Вероятность этого события составляет 0.13126. Или 1 к 7.62.

Вероятность того, что ВБОП не далее 5 поколений составляет 75.5%.

А вот реально (если не ошибаюсь) парово3 и его совпаденец отстоят на 8 поколений.
Пиковая вероятность для этого события составляет:
16         0.01591
Т.е., 1 к 63 (округлённо).
Не велики шансы, а выпали.

Хотя чему удивляться, я в своей покерной практике, например, два раза имел роял флэш. А там вероятность го-о-раздо меньше.

Резюмирую: если речь идёт не о статистической обработке (т.е. о получении средних цифр по большому массиву данных), а о получении конкретных цифр по отдельно взятой паре, то без дополнительной информации - никак не обойтись.

Оффлайн golodАвтор темы

  • Сообщений: 25
  • Рейтинг +2/-0
    • фамильный сайт Голодяевых
  • Y-ДНК: N1C
Re: калькулятор TMRCA
« Ответ #9 : 14 Июнь 2011, 18:32:24 »
так, что-то отложилось.
тогда новый вопрос: чему все же больше доверять?
нашей пиковой вероятности 1 к 85.47 или доверительному интервалу для "земляков" в 75%, тогда 1 к 119,5. Надо ли учитывать сближающие косвенные факторы, если они не сближают, а наоборот, отдаляют. Если бы у нас были еще и фамилии одинаковые, то мы бы рассматривали вероятность 90%, т.е. 1 к 240.
Должно же быть наоборот. Человек с той же фамилией и живущий в России имеет большую вероятность быть родственником при тех же исходных.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: калькулятор TMRCA
« Ответ #10 : 15 Июнь 2011, 01:22:01 »
Я доверяю больше куммулятивной вероятности.
Пиковой вероятности имеет смысл доверять, когда имеем вытянутый вероятностный колокол (для этого выберите опцию построения графика).
Т.е. тогда, когда соседние значения сильно отличны (меньше).

Повторюсь.

За неимением лучшего, сопоставляйте результаты попарных сравнений и филогенетических построений.
Каждая дополнительная информация - должна быть принята в расчёт.
:)

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Re: калькулятор TMRCA
« Ответ #11 : 28 Июнь 2011, 10:56:10 »
У меня не получилось открыть новую тему, поэтому задаю вопросы в данной теме. Прошу меня извинить.
первый вопрос: что такое - мутация в STR локусе?
второй вопрос: как фиксируется мутация приборами? Какие случаи изменения в локусе фиксируются специалистом как одна и та же мутация, т.е., эти случаи неразличимы с точки зрения прибора или метода подсчета мутаций?
например, (TATG)n Какие варианты изменения данной последовательности нуклеотидов после обработки прибором исследователем воспринимается как одна и та же мутация?
« Последнее редактирование: 28 Июнь 2011, 11:15:21 от Каржавин »

Оффлайн golodАвтор темы

  • Сообщений: 25
  • Рейтинг +2/-0
    • фамильный сайт Голодяевых
  • Y-ДНК: N1C
Re: калькулятор TMRCA
« Ответ #12 : 10 Июль 2011, 11:53:31 »
Доверительный интервал (тоже прошу не цепляться к формальной правильности применяемого мною термина) в 75% означает, что с вероятностью 1 к 1.33 все ВБОПы расположены не далее 85 поколений.
Вопрос - как получена цифра 1,33? Она всегда соответствует интервалу в 75%?

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: калькулятор TMRCA
« Ответ #13 : 10 Июль 2011, 18:14:39 »
Доверительный интервал (тоже прошу не цепляться к формальной правильности применяемого мною термина) в 75% означает, что с вероятностью 1 к 1.33 все ВБОПы расположены не далее 85 поколений.
Вопрос - как получена цифра 1,33? Она всегда соответствует интервалу в 75%?

Когда мы говорим, что вероятность чего-то составляет 25%, то можно также сказать, что вероятность данного события составляет 1 к 4. Или 1 к 1 / 0.25 = 4.

Если же вероятность 75%, то можно сказать: вероятность данного события мы оцениваем как 1 к (1 / 075 =) 1.33.

Короче говоря, простая замена процентов на пропорции.

*** Это просто привычка бывшего картёжника. Когда Вас просят оценить вероятность того, что за одну попытку Вы вытянете из покерной колоды, скажем, даму пик, Вы можете сказать, что вероятность этого события составляет 1.9223%. Но скорее всего скажете, что вероятность равна 1 к 52.

Оффлайн golodАвтор темы

  • Сообщений: 25
  • Рейтинг +2/-0
    • фамильный сайт Голодяевых
  • Y-ДНК: N1C
Re: калькулятор TMRCA
« Ответ #14 : 24 Июль 2011, 15:55:44 »
Еще вопрос - если в результатах по одному и тому же маркеру есть расхождение не на один, а на 2 шага, я учитываю это в матчах как одно несовпадение или два? Соответственно, три шага - три несовпадения и т.д.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.