АвторТема: Учебники по расчетам TMRCA  (Прочитано 13338 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Re: Учебники по расчетам TMRCA
« Ответ #45 : 20 Октябрь 2020, 00:39:40 »
Спасибо за замечания. Надо обдумать.

Оффлайн Farroukh

  • Maternal Y-DNA: R1b-BY124371
  • ...
  • Сообщений: 17098
  • Страна: az
  • Рейтинг +5909/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Re: Учебники по расчетам TMRCA
« Ответ #46 : 20 Октябрь 2020, 05:14:27 »
Цитировать
Wehrhahn, C. F., 1975 "The evolution of selectively similar electrophoretically detectable alleles in finite natural populations. Genetics 80: 375–394."
Это слишком устаревший материал, чтобы ссылаться по части скоростей мутации Y-ДНК. В 1975 году ещё секса-то не было, какие там ещё аллели... :)

Подобные реверансы имеют смысл разве что в ретроспективном обзоре, посвящённом научной истории предмета. А так лучше брать мировые наработки за последние 10 лет.

Извиняюсь за встревание. :)

Оффлайн kgvista

  • Сообщений: 11
  • Страна: ru
  • Рейтинг +5/-0
  • Y-ДНК: R1b-U106
Re: Учебники по расчетам TMRCA
« Ответ #47 : 20 Октябрь 2020, 05:23:47 »
Цитировать
Wehrhahn, C. F., 1975 "The evolution of selectively similar electrophoretically detectable alleles in finite natural populations. Genetics 80: 375–394."
Это слишком устаревший материал, чтобы ссылаться по части скоростей мутации Y-ДНК. В 1975 году ещё секса-то не было, какие там ещё аллели... :)
Честно говоря, я статью 1975 даже не искал :). Но на нее Walsh, Bruce 2001 ссылаются не ради скоростей мутаций, а ради чисто математической формулы распределения, где скорость мутации мю, может быть какой угодно. Это чистый теорвер, он в принципе не может устаревать, в отличие от бесконечных таблиц скоростей мутаций
« Последнее редактирование: 20 Октябрь 2020, 05:50:02 от kgvista »

Оффлайн kgvista

  • Сообщений: 11
  • Страна: ru
  • Рейтинг +5/-0
  • Y-ДНК: R1b-U106
Re: Учебники по расчетам TMRCA
« Ответ #48 : 20 Октябрь 2020, 05:35:26 »
Спасибо за замечания. Надо обдумать.
Дмитрий, что меня потрясло, так это вычисление формул для центральных моментов распределения, вплоть до четвертого. То, что первый момент равен 0, очевидно - распределение симметричное. Второй момент изучил сам А.Эйнштейн в работе 1905 года по броуновскому движению (правда, вывод "на пальцах", без получения самого распределения) - дисперсия пропорциональна времени.

А вот средний модуль (12) и четвертый момент (11) - эти формулы, возможно, ранее никем не публиковались. Браво!

Приближенная формула (13) исключительно интересна. К сожалению, ей не хватает вывода (пусть это будет пожелание №4)
« Последнее редактирование: 20 Октябрь 2020, 05:52:50 от kgvista »

Оффлайн kgvista

  • Сообщений: 11
  • Страна: ru
  • Рейтинг +5/-0
  • Y-ДНК: R1b-U106
Re: Учебники по расчетам TMRCA
« Ответ #49 : 20 Октябрь 2020, 05:57:53 »
Предложение №5 - добавить нумерацию страниц :)

Оффлайн kgvista

  • Сообщений: 11
  • Страна: ru
  • Рейтинг +5/-0
  • Y-ДНК: R1b-U106
Re: Учебники по расчетам TMRCA
« Ответ #50 : 20 Октябрь 2020, 06:14:06 »
В формуле (19), похоже, пропущен знак минус в показателе экспоненты? (По крайней мере в (12) там же - с минусом)

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Re: Учебники по расчетам TMRCA
« Ответ #51 : 20 Октябрь 2020, 09:31:37 »

1. Заменить всюду "ДНК-генеалогия" на "генетическая генеалогия"
Это пожелание надо обсуждать на нашем форуме. Многие форумчане, особенно ветераны, продолжают использовать термин "ДНК-генеалогия". Раскол сообщества произошел летом 2009 года, но молгеновцы до сих пор не условились о терминах. Клесовцы, понятное дело, тянут одеяло на себя.

Цитировать
2. Формулы распределения для винеровского процесса, аналогичные (8a) и (8b), ранее выведены в опубликованной статье Walsh, Bruce 2001 "Estimating the time to the MRCA for the Y chromosome or mtDNA for a pair of individuals" - там они (27a) и (27b).

Причём авторы этой статьи ради соблюдения научной этики дают ссылку на своего предшественника - Wehrhahn, C. F., 1975 "The evolution of selectively similar electrophoretically detectable alleles in finite natural populations. Genetics 80: 375–394."

Думаю, стоит сделать аналогичную ссылку.
Для учебного пособия я с самого начала решил делать поменьше ссылок, чтобы не перегружать изложение и, соответственно, восприятие читателей. Формулы для вероятностей (9) я вывел самостоятельно в 2009 году. Признаюсь, тогда я не был знаком с более ранними работами, в которых  также получались формулы с модифицированной функцией Бесселя 1 рода. На статью Walsh (2001) обратил мое внимание мой же соавтор А.А. Клёсов при обсуждении полученных результатов.
Помимо указанных работ есть статья Watkins (2007) Microsatellite evolution: Markov transition functions for a suite of models. Theoretical Population Biology 71: 147–159.
По-видимому, при создании третьей версии учебного пособия надо указать, что полученная формула (9) - частный случай из теории случайных блужданий пуассоновского процесса (см. формулу (7.7) на стр.81 в книге Феллер В. (1964) Введение в теорию вероятностей и ее приложения. Том 2).

Цитировать
3. Ранее был совет учесть мысли Ken Nordtvedt 2008. Главная мысль Кена в его статье "More realistic TMRCA calculations" - то что при обращении вероятности нужно не забывать домножать, в соответствии с теоремой Байеса, на априорную вероятность, и это, по мысли Нордтвердта, ключ в примирении результатов расчетов через STR с расчетами по SNP, которые могут расходится двукратно. Правда то, как Кен сам вывел эту априорную вероятность, вызывает у меня сильное недоумение...

В вышеуказанной статье Walsh, Bruce 2001 рассуждения о априорной вероятности - формула (6). Эти авторы опередили Кена Нордтвердта на 7 лет, и, в отличие от последнего, будучи математиками, а не физиком, излагают они ту же самую мысль более "математично". Правда, и они практическое вычисление априорной вероятности делают как-то "странно".

В вашей статье я не увидел явного учета априорной вероятности. Правда, просмотрел её пока очень бегло. Во всяком случае, никаких рассуждений, аналогичных (6) из Walsh, Bruce 2001 я не встретил.
Не готов ответить. До сих пор не понимаю некоторых моментов с использованием параметра Ne для целей молекулярной генеалогии.

В целом приветствую любые замечания и пожелания. После накопления "критической массы" буду делать третью версию учебного пособия.
« Последнее редактирование: 20 Октябрь 2020, 09:52:25 от Nimissin »

Оффлайн kgvista

  • Сообщений: 11
  • Страна: ru
  • Рейтинг +5/-0
  • Y-ДНК: R1b-U106
Re: Учебники по расчетам TMRCA
« Ответ #52 : 20 Октябрь 2020, 09:33:13 »
Одна и та же буква A используется как для обозначения значений STR-маркеров в гаплотипах (глава 5) и среднее число сыновей (43) в главе 11. В главе 13 (несчастливое число) эта буква встречается в части формул (в (62) и (63)) в первом качестве, а в (64) - во втором. Это немного усложняет восприятие исключительно интересного материала, запутывает, причем когда у читателя и так уже пар из ушей идёт!

Хорошо бы использовать разные буквы.

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Re: Учебники по расчетам TMRCA
« Ответ #53 : 20 Октябрь 2020, 09:40:21 »

Приближенная формула (13) исключительно интересна. К сожалению, ей не хватает вывода (пусть это будет пожелание №4)
Формула (13) получается из свойств модифицированной функции Бесселя при малых значениях аргумента функции. Но саму аппроксимацию я вывел вначале путем перебора на компьютере  :)

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Re: Учебники по расчетам TMRCA
« Ответ #54 : 20 Октябрь 2020, 09:42:42 »
В формуле (19), похоже, пропущен знак минус в показателе экспоненты? (По крайней мере в (12) там же - с минусом)
Нет, не пропущен. Формулы (13) и (19) изложены правильно.

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Re: Учебники по расчетам TMRCA
« Ответ #55 : 20 Октябрь 2020, 09:43:30 »
Предложение №5 - добавить нумерацию страниц :)
Согласен.

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Re: Учебники по расчетам TMRCA
« Ответ #56 : 20 Октябрь 2020, 09:46:29 »
Одна и та же буква A используется как для обозначения значений STR-маркеров в гаплотипах (глава 5) и среднее число сыновей (43) в главе 11. В главе 13 (несчастливое число) эта буква встречается в части формул (в (62) и (63)) в первом качестве, а в (64) - во втором. Это немного усложняет восприятие исключительно интересного материала, запутывает, причем когда у читателя и так уже пар из ушей идёт!

Хорошо бы использовать разные буквы.
Это верное замечание. Принимается.

Оффлайн kgvista

  • Сообщений: 11
  • Страна: ru
  • Рейтинг +5/-0
  • Y-ДНК: R1b-U106
Re: Учебники по расчетам TMRCA
« Ответ #57 : 20 Октябрь 2020, 10:19:12 »
Это пожелание надо обсуждать на нашем форуме. Многие форумчане, особенно ветераны, продолжают использовать термин "ДНК-генеалогия". Раскол сообщества произошел летом 2009 года, но молгеновцы до сих пор не условились о терминах. Клесовцы, понятное дело, тянут одеяло на себя.
Мне кажется, что ваш материал имеет ценность не только в контексте данного форума. А в контексте научной публикации логичнее использовать сложившуюся научную терминологию.

Цитировать
Для учебного пособия я с самого начала решил делать поменьше ссылок, чтобы не перегружать изложение и, соответственно, восприятие читателей.
Ну, это получилось не совсем учебное пособие: очень много самостоятельно полученных результатов, скорее всего, никем ранее не опубликованных.

Ссылки сами по себе, если их оформлять как сноски, совершенно не перегружают основной текст. То есть можно оформить как сноску, или где-то в конце в отдельной заключительной главе дать краткий обзор, кем получены те или иные результаты ранее.

Цитировать
Формулы для вероятностей (9) я вывел самостоятельно в 2009 году.
Это очень круто! Завидую вам белой завистью :)

Цитировать
По-видимому, при создании третьей версии учебного пособия надо указать, что полученная формула (9) - частный случай из теории случайных блужданий пуассоновского процесса (см. стр.81 в книге Феллер В. (1964) Введение в теорию вероятностей и ее приложения. Том 2).
Подобные случайные блуждания ("распределение пьяного матроса"), насколько я знаю, вслед за Эйнштейном изучал Ноберт Винер, вследствие чего они носят название "винеровский процесс". Признаюсь, я совершенно не специалист в этой теме, но подозреваю, что термин "пуассоновский процесс" тут не совсем корректен терминологически.

Цитировать
Цитировать
В вашей статье я не увидел явного учета априорной вероятности. Правда, просмотрел её пока очень бегло. Во всяком случае, никаких рассуждений, аналогичных (6) из Walsh, Bruce 2001 я не встретил.
Не готов ответить. До сих пор не понимаю некоторых моментов с использованием параметра Ne для целей молекулярной генеалогии.
У вас в 11-12 главе, пожалуй, косвенно есть этот учёт. По крайней мере, точно есть понимание, что характер ветвления общего древа, известный априорно, влияет на TMRCA. Разве что в 12 главе все выкладки чисто вычислительные по Монте-Карло - нет никакого теоретического обоснования, есть лишь экспериментальное. Правда, есть аналитическая формула (60), но не даётся её вывод, даже в приложениях.

Суровая правда жизни состоит в том, что "коэффициент фертильности" А и "показатель стерильности" p0 в ВПГВГР очень не постоянен во времени, особенно если анализируются периоды в несколько тысяч лет. (Совсем опасно коэффициенты распределения Лотка 1939 года, то есть на XX век, экстраполировать на прошлые века, когда даже среднее количество детей в семье было кардинально иным.) Я полагаю, что сложная зависимость A от времени (влияющую на форму функции априорной вероятности) является причиной парадокса сильного расхождения оценок TMRCA по STR и по SNP. Увы, эта функция не может быть представлена в аналитическом виде, а потому нельзя рассчитывать на то, что чисто аналитические выкладки для оценки TMRCA, даже столь глубоко проработанные, как в вашем учебном пособии, могут удовлетворительно согласовываться с оценками по SNP :(

Оффлайн kgvista

  • Сообщений: 11
  • Страна: ru
  • Рейтинг +5/-0
  • Y-ДНК: R1b-U106
Re: Учебники по расчетам TMRCA
« Ответ #58 : 20 Октябрь 2020, 10:34:42 »
Ещё обратите внимание под формулой (62) для А_J определение дано странное - суммирование по i, а А имеет индекс j (не указана зависимость от i). То ли опечатка, то ли должно быть суммирование по A_j (i). Я не понял это место.

Вот ещё вспомнил. В главе 5 при формулировке задачи утверждается "Также известен гаплотип ближайшего общего предка: ...". Понимаю, что при моделировании по Монте-Карло он как бы "известен". Но на практике же он сам по себе совершенно не известен, его можно лишь реконструировать по потомкам (и легко попасть пальцем в небо), ну или если... археологам крупно повезёт.

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Re: Учебники по расчетам TMRCA
« Ответ #59 : 21 Октябрь 2020, 03:38:14 »
Ещё обратите внимание под формулой (62) для А_J определение дано странное - суммирование по i, а А имеет индекс j (не указана зависимость от i). То ли опечатка, то ли должно быть суммирование по A_j (i). Я не понял это место.
Да, это опечатка. Должно быть A_j (i). Спасибо.

Цитировать
Вот ещё вспомнил. В главе 5 при формулировке задачи утверждается "Также известен гаплотип ближайшего общего предка: ...". Понимаю, что при моделировании по Монте-Карло он как бы "известен". Но на практике же он сам по себе совершенно не известен, его можно лишь реконструировать по потомкам (и легко попасть пальцем в небо), ну или если... археологам крупно повезёт.
При изложении материала предполагается, что предковый гаплотип известен. А на практике, конечно, бывают проблемы при определении предкового аллеля. Причем чем старше генеалогия, тем больше вероятности сделать ошибку. Но то, что он "совершенно неизвестен", - это неверно. Есть модальный гаплотип, который с какой-то вероятностью совпадает с предковым.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.