Ошибка в методике подсчёта возвратных мутаций, предложенной в статье Клёсова и Адамова. При этом, надо отметить, что саму идею учёта возвратных мутаций, а также формулу Адамова, я под сомнение не ставлю.На возрастах, о которых идёт речь, ошибка даёт 10-30% (в зависимости от возраста и применяемого набора маркеров) занижения возраста от реального.
В чём я вижу ошибочность методики расчёта поправки на возвратные мутации?
Как правильно отмечал Адамов, величина поправки не зависит от скорости маркера, а зависит от количества накопленных мутаций. Но колчество мутаций зависит от скорости маркера. При этом зависимость экспоненциальная. А поправку рассчитывают по среднему количеству мутаций на маркер и средней скорости. Из-за нелинейности изменения поправки, при наличии быстрых и медленных маркеров в гаплотипе расчёт по среднему приводит к ошибке.
Я провёл расчёты по следующей методике.
Например, имеем выборку 2-маркерных гаплотипов. Скорось 1-го маркера 0,00800 , скорость 2-го 0,00008. Средняя скорость на маркер 0,00404.
За 100 поколений на 1-м маркере каждого гаплотипа должно произойти в среднем 0,008х100=0,8 мутаций, во 2-м 0,00008х100=0,008 мутаций. Замечу, что это количество действительных, а не наблюдаемых мутаций. Применив обратную формулу Адамова, получим количество наблюдаемых мутаций.На 1-м - 0,5758, на 2-м - те же 0,008(поправка на возвратные мутации меньше одной тысячной).Считая обычным способом, мы суммируем наблюдаемые мутации и делим на количество маркеров (0,5758+0,0080)/2=0,2919 наблюдаемых мутаций на маркер. Рассчитываем по формуле Адамова количество действительных мутаций. Получаем 0,3414. Делим на среднюю скорость 0,3414/0,00404=84,5 поколений.Занижение возраста 15,5 поколений или в данном случае 15,5%.
Может быть, это частный случай и в реальных гаплотипах будет по-другому? Я провёл расчёты по той же методике для разных панелей и разного количества поколений.
Скорости маркеров брал Чандлеровские
http://freepages.genealogy.rootsweb.ancest...y/ratestuff.htm
Для 20 поколений(в скобках занижение в процентах)
12м- 19,8 поколений(1,0%)
2-я панель(13-25)-19,4(3,0%)
25-м -19,5(2,5%)
3-я панель(26-37)-19,0(5,0%)
37-м -19,0(5,0%)
4-я панель(38-67)-19,5(2,5%)
67-м -19,1(4,5%)
Для 50 поколений
12м-48,8(2,4 %)
2-я панель(13-25)-46,6(6,8%)
25-м -47,1(5,2%)
3-я панель(26-37)-44,9(10,2%)
37-м -44,9(10,2%)
4-я панель(38-67)-47,2(5,6%)
67-м -45,1(9,8%)
Для 100 поколений
12м-95,6(4,4%)
2-я панель(13-25)-88,2(11,8%)
25-м -91,3(8,7%)
3-я панель(26-37)-83,9(16,1%)
37-м -83,5(16,5%)
4-я панель(38-67)-90,3(9,7%)
67-м -84,0(16,0%)
Для 150 поколений
12м-140,7(6,2%)
2-я панель(13-25)-127,0(15,3%)
25-м -132,6(11,6%)
3-я панель(26-37)-119,9(20,1%)
37-м -118,9(20,7%)
4-я панель(38-67)-130,3(13,1%)
67-м -119,5(20,3%)
Для 200 поколений
12м-184,6(7,7%)
2-я панель(13-25)-162,3(18,9%)
25-м -171,4(14,3%)
3-я панель(26-37)-154,2(22,9%)
37-м -151,9(24,1%)
4-я панель(38-67)-168,1(16,0%)
67-м -152,6(23,7%)
Для 250 поколений
12м-227,1(9,2%)
2-я панель(13-25)-199,1(20,4%)
25-м -210,6(15,8%)
3-я панель(26-37)-187,3(25,1%)
37-м -184,3(26,3%)
4-я панель(38-67)-204,4(18,2%)
67-м -184,4(26,2%)
Закономерность очевидна. Наименьшее занижение на 1-й панели, где в основном среднескоростные маркеры,есть медленные, но нет очень быстрых.Самое большое занижение даёт 3-Я панель, где несколько наиболее быстрых маркеров. Таким образом большая разница в скоростях маркеров даёт большее занижение. С увеличением возраста ошибка увеличивается.
Таким образом для правильного применения линейного метода необходимо рассчитывать поправку не по среднему, а для каждого маркера отдельно.Но тут появятся свои трудности.
По предварительным заявлениям, Каржавин и Адамов в своей новой работе по моделированию планируют для линейного метода ввести поправку на возвратные мутации в общую рекомендуемую поправку. Но если они не учтут ошибку расчётов по среднему, то и общая поправка будет с существенной ошибкой.