АвторТема: Калибровка скоростей мутаций для целей ДНК-генеалогии  (Прочитано 38130 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Согласен, а вот какие всё-таки последние результаты по парам "отец-сын"?
Наиболее полная официальная сводка, на мой взгляд, содержится в БД YHRD:
http://www.yhrd.org/Research/Loci
Наиболее изученные Y-STR локусы (19, 390, 391, 392 и т.д.) измерены по данным около 15 тысяч мейозов.

Есть данные и с большей статистикой мейозов, например, с учетом результатов работы Ballantyne et al. (2010). Но они не опубликованы, это частные данные.

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Вспоминаю свои старые знания по теории вероятностей, поэтому не взыщите ежели что не так.

Постановка задачи: По мне мутации STR  это процесс Бернулли.
Тогда имеем, что за дискретное время t процесс может оказаться в целочисленной точке х, причем с вероятностью p он прирастает  на 1, с q уменьшает на 1, с r остается на месте. p+q+r=1. Следовательно, надо найти такой набор чисел n,m,s соответствующих шагов чтоб было n-m=x. Тогда вероятность будет P(x,t) = [n m s]pnqmrs. Следовательно, максимум этой вероятности для известного x по t=n+m+s и будет наиболее вероятным временем (в поколениях) до исходной точки. Это для одного маркера. Для многих маркеров нужно найти максимум P0(x0,t)P1(x1,t)...Pi(xi,t), где вероятности собственные для каждого маркера вычисленного независимо по парам "отец-сын", то есть просто количество людей у которых произошло данное изменение деленное на общее количество людей.
Чтоб найти максимумы как известно надо взять производную P по t и приравнять ее нулю, но можно и просто численно, все равно нужно искать максимум в целых точках. Если возникнут вероятности увеличения шага до 2 и более, то просто надо добавить их вероятности и увеличить мультиномиал.

Этот способ независит от количества маркеров в смысле его не надо калибровать для разного количества, на графике можно увидеть максимумы, мне кажется что он правильней биологически и математически. Извините, если открываю секрет полишенеля.
Вы мыслите в правильном направлении. Прочитайте статью Сергея Каржавина в Вестнике (№ 4,2008) или в RJGG (№1, 2009), обнаружите много параллелей. За 4 года наше понимание процесса мутаций в Y-STR локусах с учетом развития генеалогий от ближайшего общего предка во времени значительно продвинулось. Так что догоняйте и вносите свой вклад!

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a

Материал для этого уже есть. Есть статистика мутаций по родственникам (семьям). Таких семей уже сотни тысяч. Так что считайте и считайте.
Если мы говорим о Y-STR гаплотипах, то сотни тысяч образцов - это общее число накопленных на настоящее время гаплотипов. До миллиона еще далеко. И это совсем не семьи, а по большей части отдельные индивиды. Мы видим разнообразие этих гаплотипов по измеренным локусам и понимаем, что оно (разнообразие) образовалось в результате мутаций.  Но "выудить" из этих данных константы скорости мутаций - это еще надо приложить значительные усилия. Это удалось, в какой-то мере, Джону Чандлеру. Если брать научные данные по прямым измерениям скоростей мутаций по парам "отец-сын" - то здесь статистика значительно меньше. По самым изученным локусам статистика достигает 15 тыс.пар. 
« Последнее редактирование: 14 Июнь 2012, 15:53:31 от Nimissin »

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
;D МашкИн, надежды юношу питают. Вы просто посчитайте сами, величины вероятностей на маркер это сотые - тысячные - десятитысячные, следовательно нужно рассчитывать не менее ста тысяч семей. И так для каждой величины СТР - а их просто столько нет. Однозначно понятно, что величины различий вероятностей будут в более чем в 5м знаке после запятой, а может в десятом, причем почти наверняка не будут вообще. Тут нужны миллионы тестируемых, да еще чтоб у них встречались все величины СТР.....
Здесь надо пояснить, о чем речь. Y-STR есть у всех мужчин, причем практически одни и те же. Они же (STRы) обнаружены и у самцов шимпанзе и горилл. Различие только в количестве тандемных повторов.

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a

А предлагаемое Вами упрощение, как я уже сказал, даёт более менее  приемлемые оценки на глубину в 4-5 поколений, т.е. при количестве поколений  свыше пяти все они имеют заниженные оценки глубины. Например, 7 поколений расчётных соответствуют 10-ти фактическим  и т.д.
Наверное, Вы говорите про степень родства, определяемую по аутосомам. А здесь обсуждается свойства Y-STR локусов, т.е. мы не выходим за рамки темы о Y-хромосоме.

Оффлайн МашкИн

  • Сообщений: 767
  • Страна: ru
  • Рейтинг +99/-3
  • МашкИн Михаил Николаевич
    • Личный сайт
  • Y-ДНК: 112 R1a [Y2609*], FTDNA 219850, YSEQ 347, 6KEAB; FF; GEDMATCH T861056
  • мтДНК: FGS H* , H96, GenBank KC810015
5. Ну и наконец, никто не доказал что это простой марковский процесс, а не высших порядков. Например, в м.п. постулируется что переходная вероятность зависит только от текущего значения СТР, но эпигенетика говорит что экспрессия генов зависит от предыдущего поколения, то есть вероятность мутации СТР может зависеть от того когда произошла предыдущая мутация. Неизвестен механизм мутации СТР, его причины, как на него влияют пред. мутации, то есть мутация СТР имеет эпигенетическую или генетическую природу.
6. И наконец, все эти цепи маркова имеют большую вычислительную неустойчивость, посчитать все это чрезвычайно сложно, и практической пользы может не быть никакой.

Цепи Маркова достаточно легко моделируются.

Описание в виде простого марковского процесса лучше полиномиального и простого пуассоновского потока.

Пишу не гордыни ради, а для тех кто помоложе и может затратить несколько лет на данное исследование. Всё равно, если ещё эта работа не выполнена, то её обязательно выполнят. Вычислительные мощности (кластеры) и методы многомерного анализа есть и ждут своего часа.

Что касается меня лично, то готов помочь при конкретной постановке задачи, правда, силами своих студентов.

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
5. Ну и наконец, никто не доказал что это простой марковский процесс, а не высших порядков. Например, в м.п. постулируется что переходная вероятность зависит только от текущего значения СТР, но эпигенетика говорит что экспрессия генов зависит от предыдущего поколения, то есть вероятность мутации СТР может зависеть от того когда произошла предыдущая мутация. Неизвестен механизм мутации СТР, его причины, как на него влияют пред. мутации, то есть мутация СТР имеет эпигенетическую или генетическую природу.
6. И наконец, все эти цепи маркова имеют большую вычислительную неустойчивость, посчитать все это чрезвычайно сложно, и практической пользы может не быть никакой.

Цепи Маркова достаточно легко моделируются.

Описание в виде простого марковского процесса лучше полиномиального и простого пуассоновского потока.

Пишу не гордыни ради, а для тех кто помоложе и может затратить несколько лет на данное исследование. Всё равно, если ещё эта работа не выполнена, то её обязательно выполнят. Вычислительные мощности (кластеры) и методы многомерного анализа есть и ждут своего часа.

Что касается меня лично, то готов помочь при конкретной постановке задачи, правда, силами своих студентов.
Не очень понятно про полиномиальный и пуассоновский потоки. Давайте уточним, о чем идет речь. Вы про описание STR мутаций, или про развитие мужской генеалогии во времени? Ведь мутации (или гаплотипы) не существуют сами по себе. Есть родовая популяция, которая размножается во времени, или уменьшается. И это как-то влияет на число мутаций при измерении числа тандемных повторов у некоторых представителей рода, принадлежащих к финальному поколению, т.е. наших современников. 

Оффлайн Agni

  • Сообщений: 699
  • Рейтинг +30/-56
5. Ну и наконец, никто не доказал что это простой марковский процесс, а не высших порядков. Например, в м.п. постулируется что переходная вероятность зависит только от текущего значения СТР, но эпигенетика говорит что экспрессия генов зависит от предыдущего поколения, то есть вероятность мутации СТР может зависеть от того когда произошла предыдущая мутация. Неизвестен механизм мутации СТР, его причины, как на него влияют пред. мутации, то есть мутация СТР имеет эпигенетическую или генетическую природу.
6. И наконец, все эти цепи маркова имеют большую вычислительную неустойчивость, посчитать все это чрезвычайно сложно, и практической пользы может не быть никакой.

Цепи Маркова достаточно легко моделируются.

Описание в виде простого марковского процесса лучше полиномиального и простого пуассоновского потока.

Пишу не гордыни ради, а для тех кто помоложе и может затратить несколько лет на данное исследование. Всё равно, если ещё эта работа не выполнена, то её обязательно выполнят. Вычислительные мощности (кластеры) и методы многомерного анализа есть и ждут своего часа.

Что касается меня лично, то готов помочь при конкретной постановке задачи, правда, силами своих студентов.
Нужна не постановка задачи, а конкретные результаты. Демонстрация расчётов и тд. Времена которые получаются и тд. Оценка достоверности результатов и тд.
То что абстрактные простые цепи Маркова легко моделируются это понятно, вы это сделайте в практических целях, а то как выше написал уважаемый Каржавин, легко институтские задачи ставить, но вы проведите вычисления сами и докажите его пригодность и полезность. Что они лучше надо еще доказать, а вычислительных затрат на порядки больше, в том числе проблема с вычислительной устойчивостью никуда не испарилось.
а Причем тут пункт 5 в вашем ответе я так и не понял.

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Не очень понятно про полиномиальный и пуассоновский потоки. Давайте уточним, о чем идет речь. Вы про описание STR мутаций, или про развитие мужской генеалогии во времени? Ведь мутации (или гаплотипы) не существуют сами по себе. Есть родовая популяция, которая размножается во времени, или уменьшается. И это как-то влияет на число мутаций при измерении числа тандемных повторов у некоторых представителей рода, принадлежащих к финальному поколению, т.е. наших современников.
Вот в том то и дело, уважаемый МашкИн! Дмитрий озвучил, пожалуй, наиболее важный момент. Имеется три взаимосвязанных стороны единого процесса возникновения совокупности гаплотипов от одного предка: формирование общего генеалогического древа (в кроне которого "сидят" наблюдаемые нами гаплотипы), акты мутирования в отдельных узлах дерева, и скачкообразные случайные изменения значения аллелей на +-1, +-2, +-3 и более значений в мутировавших локусах. Мы нашли математическое описание всей совокупности явлений, исходя из определенного набора постулатов и получили конечный результат (максимально правдоподобную несмещенную оценку ВБОП с минимальной границей дисперсии). Если Вы считаете, что такого же результата (как Вы понимаете, более точного в классе линейных оценок при заданном наборе постулатов получить даже теоретически нельзя), Вы можете достичь для более простой и более точной модели многосвязного марковского процесса, то покажите, как это нужно делать. Для этого, в частности, Вы должны сделать и то, что написано в моем предыдущем посте  :)
В качестве методологической подсказки:
1. Сначала подвергните ревизии тот набор постулатов о модели, которые мы сформулировали. Измените отдельные постулаты (на основе исследований генетиков), покажите метод измерения (получения максимально правдоподобных оценок) новых параметров в соответствии с новыми постулатами;
2. Сформулируйте на основе нового набора постулатов новую математическую модель в виде совокупности формул;
3. Выведите на основе сформулированной Вами математической модели формулы для статистической оценки искомых параметров модели на основе набора реальных гаплотипов;
4. Проведите аттестацию метода, т.е., вычислите качество Ваших оценок ВБОП, определите пределы применимости, разброс, смещение, доверительные интервалы и пр. как функции наиболее значимых параметров генеалогий (глубина дерева в поколениях от начального предка, вид гаплотипа, и пр.).
Мы такую четырехступенную работу ПРОВЕЛИ, и результаты по всем этим пунктам опубликовали на всеобщее обозрение. Чтобы далее серьезно с Вами обсуждать данные вопросы, а не тратить время на пустую болтовню, хотя бы начните РЕАЛЬНУЮ работу с первого и второго пункта (пусть в чем-то за Вас Ваши студенты работают, это неважно, они не будут забыты благодарным Отечеством в лице Молгена). Это будет уже интересной темой для нормального доброжелательного и заинтересованного обсуждения всем нашим коллективом.
Как у нас раньше на семинарах говорили: это кто там с места что-то возражает и предлагает? А ну-ка к доске! Напишите! Мела на всех хватит.
« Последнее редактирование: 14 Июнь 2012, 16:53:02 от Каржавин »

Оффлайн МашкИн

  • Сообщений: 767
  • Страна: ru
  • Рейтинг +99/-3
  • МашкИн Михаил Николаевич
    • Личный сайт
  • Y-ДНК: 112 R1a [Y2609*], FTDNA 219850, YSEQ 347, 6KEAB; FF; GEDMATCH T861056
  • мтДНК: FGS H* , H96, GenBank KC810015
Не очень понятно про полиномиальный и пуассоновский потоки. Давайте уточним, о чем идет речь. Вы про описание STR мутаций, или про развитие мужской генеалогии во времени? Ведь мутации (или гаплотипы) не существуют сами по себе. Есть родовая популяция, которая размножается во времени, или уменьшается. И это как-то влияет на число мутаций при измерении числа тандемных повторов у некоторых представителей рода, принадлежащих к финальному поколению, т.е. наших современников.
Полиномиальное описание (полиномиальный закон распределения) применим в целом к кодовой последовательности. Пуассоновский поток - к состоянию конкретной кодовой единице.

Марковский процесс позволяет частично совместить и то, и другое.

Оффлайн Agni

  • Сообщений: 699
  • Рейтинг +30/-56
Не очень понятно про полиномиальный и пуассоновский потоки. Давайте уточним, о чем идет речь. Вы про описание STR мутаций, или про развитие мужской генеалогии во времени? Ведь мутации (или гаплотипы) не существуют сами по себе. Есть родовая популяция, которая размножается во времени, или уменьшается. И это как-то влияет на число мутаций при измерении числа тандемных повторов у некоторых представителей рода, принадлежащих к финальному поколению, т.е. наших современников.
Полиномиальное описание (полиномиальный закон распределения) применим в целом к кодовой последовательности. Пуассоновский поток - к состоянию конкретной кодовой единице.

Марковский процесс позволяет частично совместить и то, и другое.
По моему вы сами не понимаете что написали. Нет?

Оффлайн МашкИн

  • Сообщений: 767
  • Страна: ru
  • Рейтинг +99/-3
  • МашкИн Михаил Николаевич
    • Личный сайт
  • Y-ДНК: 112 R1a [Y2609*], FTDNA 219850, YSEQ 347, 6KEAB; FF; GEDMATCH T861056
  • мтДНК: FGS H* , H96, GenBank KC810015
Не очень понятно про полиномиальный и пуассоновский потоки. Давайте уточним, о чем идет речь. Вы про описание STR мутаций, или про развитие мужской генеалогии во времени? Ведь мутации (или гаплотипы) не существуют сами по себе. Есть родовая популяция, которая размножается во времени, или уменьшается. И это как-то влияет на число мутаций при измерении числа тандемных повторов у некоторых представителей рода, принадлежащих к финальному поколению, т.е. наших современников.
Полиномиальное описание (полиномиальный закон распределения) применим в целом к кодовой последовательности. Пуассоновский поток - к состоянию конкретной кодовой единице.

Марковский процесс позволяет частично совместить и то, и другое.
По моему вы сами не понимаете что написали. Нет?

Писать можно до бесконечности.
В предыдущих постах такое написано, что ставит всю теорию вероятностей и матстатистику вместе со случайными процессами в область новых определений и понятий, которые мне непонятны..
 
Вопрос проще.
Если у кого появится желание пойти по пути исследования мутаций на основе моделей с использованием описания в виде марковского процесса, то я могу привлечь к этой работе студентов. И всё.

Мне же остаётся ждать появление этого подхода, если его нет. То, что предлагает Каржавин, наверное интересно.

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Новые данные для скоростей мутаций от китайских авторов
http://www.ncbi.nlm.nih.gov/pubmed/23529242

Опубликованы данные для 1000 пар "отец-сын" из Гуандуна (КНР). STR гаплотипы - стандартные Yfiler, т.е. 17-маркерные. На 17000 мейозов выявлено 46 мутаций в парах "отец-сын". Средняя скорость мутаций для гаплотипов Yfiler 0.0027 на локус на поколение (95%CI, 0.0020-0.0036).
Наиболее полная подборка данных по парам "отец-сын" для формата гаплотипов Yfiler содержится в YHRD.org.
1   19   15225   35   0.00230
2   389i   13474   34   0.00252
3   389ii   13445   49   0.00364
4   390   14747   31   0.00210
5   391   14621   38   0.00260
6   392   14553   6   0.00041
7   393   13399   14   0.00104
8   385a   25306   54   0.00213
9   385b         
10   438   9808   3   0.00031
11   439   9782   51   0.00521
12   437   9787   12   0.00123
13   448   6364   10   0.00157
14   456   6364   27   0.00424
15   458   6363   41   0.00644
16   635   7211   25   0.00347
17   H4   7395   18   0.00243
В среднем 0.00245

Таким образом, новые данные из Китая не противоречат ранее полученным данным. Кроме того, можно считать, что средняя скорость мутаций для парагруппы O такая же, как для и для R1.

Оффлайн Шад

  • Главный модератор
  • *****
  • Сообщений: 6334
  • Страна: ru
  • Рейтинг +1330/-4
  • Ex oriente lux
  • Y-ДНК: Q-Y2750
  • мтДНК: J1c2z
Вопрос "по случаю" появление уважаемого Nimissin.
В случае, если расчет ведется не по 67, а по меньшему количеству маркеров (для Q1b выбрасывает DYS425 c делецией, делеции встречаются и в других маркерах у Q1a) то нужно ли делать поправку на mutation rate?
Какую matation rate Вы порекомендуете для 65/66 маркеров?

Оффлайн NimissinАвтор темы

  • Сообщений: 2400
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Вопрос "по случаю" появление уважаемого Nimissin.
В случае, если расчет ведется не по 67, а по меньшему количеству маркеров (для Q1b выбрасывает DYS425 c делецией, делеции встречаются и в других маркерах у Q1a) то нужно ли делать поправку на mutation rate?
Какую matation rate Вы порекомендуете для 65/66 маркеров?
Понятно, что средняя скорость мутаций для 66 маркеров должна отличаться от средней скорости для 67 маркеров. Ясно, что не сильно, но вопрос не исследован. Более того, сама средняя скорость мутаций для 67-маркерных гаплотипов еще не определена как следует. Для 65-66 маркеров порекомендовал бы пользоваться скоростью Рожанского-Клесова 0.12/ 67 = 0.00179 на локус на поколение в 25 лет, или (что то же самое) - 0.00226 на локус на поколение 31.5 лет (по Феннеру). Для расчетов возраста ветвей гаплогруппы N1c1 из-за recLOH в палиндроме Р1/Р2 я использую всего 62 локуса из 67, а иногда и 60. Среднюю скорость мутаций беру ту же - 0.00179.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.