АвторТема: Калибровка скоростей мутаций для целей ДНК-генеалогии  (Прочитано 38137 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Ладно, ОК. На формулы смотрите в статье Каржавин С.П. (2011) Моменты вероятностного распределения изменения аллелей в STR локусах Y-хромосомы в результате мутаций, меняющих аллель на большое количество повторов. The Russian Journal of Genetic Genealogy (Русская версия). 2, №1: 1-7.
http://ru.rjgg.org/index.php/RJGGRE/article/view/80

В результате несложных преобразований можно получить следующее соотношение:

T(ASD)/T(lin) = 1 + (2R2 + 6R3 + 12R4 + 20R5 + ...)/(1 + R2 + 2R3 + 3R4 + 4R5+ ...),
где R2 - доля двухшаговых мутаций, R3 - доля трехшаговых мутаций, R4 - доля четырехшаговых мутаций, R5 - доля пятишаговых мутаций и т.д. T(ASD) - расчет TMRCA квадратичным методом, T(lin) - расчет TMRCA линейным методом.
Подставляя значения из приведенных ранее данных:
R2 = 0.0209,
R3 = 0.0056,
R4 = 0.0014,
R5 = 0,
получаем
T(ASD)/T(lin) = 1.089.
То есть в среднем оценка возраста по методу ASD будет систематически превышать оценку возраста по линейному методу вследствие наличия многошаговых мутаций. Все выкладки сделаны для одного локуса, т.е. они теоретические.
« Последнее редактирование: 26 Март 2012, 14:14:01 от Nimissin »

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Прошу прощения своих соавторов. У меня есть что добавить, но сегодня на работе полный завал, так что, периодически только подсматриваю.

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Зависимость TMRCA, рассчитанной методом ASD, от оценки TMRCA, полученной линейным методом, на реальных выборках была построена Игорем Рожанским
T(ASD) ~ 1.13 T(lin).

http://www.rodstvo.ru/forum/index.php?showtopic=127&pid=88396&st=440&#entry88396

По крайней мере, часть превышения оценки возраста ASD методом над линейным можно объяснить наличием многошаговых мутаций. Если, конечно, они не были выброшены при разделении ветвей.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Тут у меня возникли проблемы. Нужно разместить массу формул, которые у меня содержатся в .doc файле. Как их вывести на экран?

1. Сохраняете формула в виде картинки. Я для этого выставляю нужный масштаб .doc файла. Затем жму Ctrl + PrintScreen. Вхожу в простенький графический редактор-смотрелку IrfanView (можете найти любой другой). Вырезаю зону с формулами. Сохраняю её в виде отдельной картинки.

2. Картинки публикую на фотохранилище. (Использую вот это для средних размеров фото и вот это для гигантских схем).

3. В теле сообщения на форуме кликаю на иконку картинки (самая первая слева). Вставляю в тег адрес изображения.

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Спасибо, уважаемый Mich Glitch, за помощь.

Привожу результаты сравнения оценок, полученных Игорем Рожанским линейным методом и методом ASD для реальных выборок 67-маркерных гаплотипов. http://www.rodstvo.ru/forum/index.php?showtopic=127&pid=88396&st=440&#entry88396



Получена зависимость T(ASD) ~ 1.13 T(lin).

Как я уже говорил ранее, часть превышения можно объяснить влиянием многошаговых мутаций.

Вместе с тем, есть еще один фактор, дающий различие в калибровках мутаций для линейного и квадратичного методов оценки TMRCA.
О нем говорил уважаемый VVR - это различие скоростей мутаций в локусах, включенных в состав гаплотипа.

Продолжение следует.
« Последнее редактирование: 28 Март 2012, 15:17:42 от Nimissin »

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Наличие написанной Сергеем Каржавиным программы розыгрыша методом Монте-Карло искусственных генеалогий позволило проверить влияние разницы мутаций в Y-STR локусах. Расчеты были проведены для 60-маркерных гаплотипов. Скорости мутаций произвольные, но близкие к наблюдаемым по парам "отец-сын" (см. статью Адамова и Каржавина в RJGG (Русская версия), 2011, том 3, № 1, с.17).






Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Выше были приведены формулы простого аналитического способа оценки систематического занижения, который дает линейный метод из-за разницы скоростей мутаций в локусах. Он основан на прямой и обратной формулах Адамова-Клесова и работает с хорошей точностью до среднего числа наблюдаемых мутаций 0.8 на маркер. Для более старых генеалогий надо пользоваться значениями точного расчета.


Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Метод ASD0, результаты моделирования которого ув.Nimissin привел чуть выше, послужили основой для "Метода выборочных пар".

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Таким образом, превышение оценки TMRCA квадратичным методом по сравнению с оценкой по линейному методу объясняется совокупным действием двух факторов:
1) влиянием многошаговых мутаций;
2) различием в скоростях мутаций в локусах, формирующих гаплотип.
Полагаю, что простое перемножение коэффициентов, описывающих влияние вышеуказанных факторов, не проходит. Скорее всего, их взаимодействие более сложное. Но исследований в этой области пока нет.

Еще один мало исследованный аспект - это разделение локусов по скорости мутаций на "быстрые", "средние" и "медленные". Практически единственные, кто пользуется медленными локусами для продвижения вглубь по времени, - это Клесов и Рожанский. Для панели из 22 медленных локусов, они получили оценку средней скорости мутаций 0.00027 мутаций на маркер. Сергей видит в таком разделении серьезные изъяны, которых я пока не понял.

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Все-таки не вижу ничего плохого в использовании отдельных панелей маркеров с разными скоростями мутаций. Надо только понимать, что многочисленные бутылочные горлышки, другие популяционные эффекты ограничивают использование медленной панели. Полагаю, что расчет по медленной панели возможен только методом выборочных пар и его частным случаем - интеркладовым методом.

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Еще один мало исследованный аспект - это разделение локусов по скорости мутаций на "быстрые", "средние" и "медленные". Практически единственные, кто пользуется медленными локусами для продвижения вглубь по времени, - это Клесов и Рожанский. Для панели из 22 медленных локусов, они получили оценку средней скорости мутаций 0.00027 мутаций на маркер. Сергей видит в таком разделении серьезные изъяны, которых я пока не понял.
Дмитрий, этот аспект исследован достаточно. Все результаты исследования по этому вопросу я тебе отсылал уже наверное год назад. Посмотри, пожалуйста, в своем архиве. Результаты оформлены в виде законченного параграфа для статьи. Там все однозначно.
Да и вопрос этот уже довольно долго обсуждали на форуме.
Клесов с Рожанским действуют как всегда больше по наитию, чем в соответствии с математической статистикой (при всем моем уважении к их работоспособности).

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Сергей, я еще пороюсь в нашей переписке, посмотрю.

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Сергей, я еще пороюсь в нашей переписке, посмотрю.
Если материал затерялся, я еще раз вышлю, не проблема. Вообще говоря, для нашего конкретного случая соотношения реальных частот мутаций нет особой разницы как считать: по отдельной медленной панели или по всему гаплотипу. Но это для очень конкретного соотношения частот мутаций. Тем не менее, при любом соотношении мутаций лучше считать по всему галпотипу, только эта "лучшесть" может быть и совсем небольшой  :)
Да, вот еще что. В том исследовании я вычислил ошибку, которую вносит неточность знания частот мутаций на момент того объема статистики по парам "отец-сын", которая была опубликована в 2011 году. В общем, все оч-ч-ень даже неплохо, привносимая ошибка в TMRCA на мой взгляд вполне приемлемая. Лично мое мнение: можно и НУЖНО пользоваться данными по парам "отец-сын", однозначно. А когда статистики примерно вдвое увеличится, то на остальные методы калибровки частот мутаций надо будет забить ЕЩЕ один окончательный осиновый болт, чтоб уж наверняка.

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
При калибровке скорости мутаций для линейного метода Клесов и Рожанский использовали серию выборок гаплотипов из разных гаплогрупп, что в принципе правильно. Использование гаплотипов из разных гаплогрупп позволяет снивелировать влияние популяционных эффектов, усреднить индивидуальные особенности возникновения мутаций во времени для отдельных выборок. Чем больше гаплогрупп представлено, тем точнее калибровка.

Гаплотипы каждой выборки должны восходить к единому общему предку. Все гаплотипы, происходящие от другого предка, которые случайно или  ошибочно попали в выборку, должны быть удалены. Вот здесь возникает некая "кухня", состоящая в разделении гаплотипов на ветви.
В качестве критерия правильности отбора гаплотипов Клесов и Рожанский используют разработанный Игорем критерий сходимости. В свою очередь, этот критерий опирается на равенство числа наблюдаемых в выборке мутаций, рассчитанных одновременно двумя методами: линейным и логарифмическим.

Когда-то я показывал, что т.н. "логарифмическая формула" является следствием распределения мутаций по Пуассону. На самом деле, даже если пренебречь популяционными эффектами, вероятность наблюдения предкового аллеля описывается более сложными соотношениями - из-за возвратных мутаций. Число гаплотипов с предковым аллелем размывается мутациями гораздо медленнее, чем по закону Пуассона (а это простая экспоненциальная функция).

Поэтому равенство возрастов, рассчитанных по линейному методу и логарифмическому методу, является приближенным, не точным. Это легко проверить по известным формулам для расчета вероятности наблюдения числа отклонений от предкового аллеля, опубликованных Адамовым и Клесовым в начале 2009 года в Вестнике.



Из таблицы видно, что на самом деле возраст, оцененный по логарифмической формуле, будет систематически превышать оценку возраста по линейному методу. Для генеалогий с возрастом 200 поколений (0.5 мутаций на маркер) это около 10 процентов.

Возникает вопрос. Если гаплотипы в выборке показывают сходимость 1.0, то эта выборка может быть несколько перекошенной. В какую сторону, омоложения или старения, ответить сложно. Все-таки это случайные процессы. Полагаю, что лучше ориентироваться на коэффициенты сходимости, рассчитанные в приведенной таблице.

Оффлайн Alexander

  • Сообщений: 650
  • Рейтинг +73/-1
  • Y-ДНК: J2b
...считают, практически полностью пренебрегая понятием поколения. Калибровка проведена ими по генеалогиям с более или менее известной документальной датировкой, т.е. в расчете числа мутаций на один календарный год. Все остальные пытаются понять зависимость длительности одного поколения от уровня развития популяции и его культурных особенностей, считают по различным родословным. Клесов и Рожанский призывают не заморачиваться над этим. Может, они и правы. В конечном итоге, и мы, когда дело доходит до конкретных расчетов, закладываем фиксированные 31.5 лет на одно поколение. Что-то я не встречал в расчетах переменной длительности поколений.
Позвольте вернуться к своему вопросу, так как ясности пока нет. Какая разница вообще, по какому методу считать возраст, если любой метод можно откалибровать, взяв соответствующую частоту мутаций? Ведь по линейному методу Клёсов получает результат тот же, какой можно получить по квадратичному методу, немного увеличив частоту. Пользователю всё равно ведь, какой фотоаппарат пользовать, было бы фото удачное и качественное.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.