АвторТема: Определение времени до общего Предка (TMRCA)  (Прочитано 88609 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн asan-kaygy

  • ...
  • Сообщений: 9613
  • Страна: kz
  • Рейтинг +945/-5
  • Y-ДНК: R1a1a1b2a1a-L657+,Y9+,Y944+
Рад за вас обоих. Надеюсь когда буду читать статью хоть что-то пойму.

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Рад за вас обоих. Надеюсь когда буду читать статью хоть что-то пойму.
Да ладно, Вы прекрасно владеете этими методами, что видно из Ваших публикаций. Но теперь нам всем придется думать о том, как их модифицировать, чтобы точность была приличной, поскольку сейчас она для малых выборок гаплотипов и для малочисленных субкладов, с которыми часто приходится иметь дело, просто ужасна.

Оффлайн asan-kaygy

  • ...
  • Сообщений: 9613
  • Страна: kz
  • Рейтинг +945/-5
  • Y-ДНК: R1a1a1b2a1a-L657+,Y9+,Y944+
Спасибо за добрые слова, но я ориентируюсь на формулы для чайников.
П.С. Жду с нетерпением вашей публикации.

Оффлайн VVR

  • ...
  • Сообщений: 2456
  • Страна: ua
  • Рейтинг +618/-0
  • Y-ДНК: o.R1a1a1b1a2a1a1a1e~-YP569,YP1260+;м.R1a1a1b1a1a1a2~-L260,YP1337+
  • мтДНК: K1c1h
Только что наша с уважаемым Каржавиным статья о зависимости оценки TMRCA, сделанной стандартным методом (ASD или линейным), от численности анализируемой популяции, завершена. Совместная работа была начата 24 марта. Разыграно методом Монте-Карло и обработано свыше 200 тыс. индивидуальных генеалогий. Авторы обменялись десятками писем, насыщенных плодотворным обсуждением. В конце концов, познакомились очно!
Nimissin, учтена ли для линейного метода ошибка в методике расчёта поправки на возвратные мутации, о которой я писал на родстве и Каржавину в л/с?

Оффлайн Nimissin

  • Сообщений: 2403
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Nimissin, учтена ли для линейного метода ошибка в методике расчёта поправки на возвратные мутации, о которой я писал на родстве и Каржавину в л/с?
Уважаемый VVR, никто не застрахован от ошибок. О какой идет речь в Вашем вопросе?

Оффлайн VVR

  • ...
  • Сообщений: 2456
  • Страна: ua
  • Рейтинг +618/-0
  • Y-ДНК: o.R1a1a1b1a2a1a1a1e~-YP569,YP1260+;м.R1a1a1b1a1a1a2~-L260,YP1337+
  • мтДНК: K1c1h
Ошибка в методике подсчёта возвратных мутаций, предложенной в статье Клёсова и Адамова. При этом, надо отметить, что саму идею учёта возвратных мутаций, а также формулу Адамова, я под сомнение не ставлю.На возрастах, о которых идёт речь, ошибка даёт 10-30% (в зависимости от возраста и применяемого набора маркеров) занижения возраста от реального.
В чём я вижу ошибочность методики расчёта поправки на возвратные мутации?
Как правильно отмечал Адамов, величина поправки не зависит от скорости маркера, а зависит от количества накопленных мутаций. Но колчество мутаций зависит от скорости маркера. При этом зависимость экспоненциальная. А поправку рассчитывают по среднему количеству мутаций на маркер и средней скорости. Из-за нелинейности изменения поправки, при наличии быстрых и медленных маркеров в гаплотипе расчёт по среднему приводит к ошибке.

Я провёл расчёты по следующей методике.
Например, имеем выборку 2-маркерных гаплотипов. Скорось 1-го маркера 0,00800 , скорость 2-го 0,00008. Средняя скорость на маркер 0,00404.
За 100 поколений на 1-м маркере каждого гаплотипа должно произойти в среднем 0,008х100=0,8 мутаций, во 2-м 0,00008х100=0,008 мутаций. Замечу, что это количество действительных, а не наблюдаемых мутаций. Применив обратную формулу Адамова, получим количество наблюдаемых мутаций.На 1-м - 0,5758, на 2-м - те же 0,008(поправка на возвратные мутации меньше одной тысячной).Считая обычным способом, мы суммируем наблюдаемые мутации и делим на количество маркеров (0,5758+0,0080)/2=0,2919 наблюдаемых мутаций на маркер. Рассчитываем по формуле Адамова количество действительных мутаций. Получаем 0,3414. Делим на среднюю скорость 0,3414/0,00404=84,5 поколений.Занижение возраста 15,5 поколений или в данном случае 15,5%.
Может быть, это частный случай и в реальных гаплотипах будет по-другому? Я провёл расчёты по той же методике для разных панелей и разного количества поколений.
Скорости маркеров брал Чандлеровские http://freepages.genealogy.rootsweb.ancest...y/ratestuff.htm

Для 20 поколений(в скобках занижение в процентах)
12м- 19,8 поколений(1,0%)
2-я панель(13-25)-19,4(3,0%)
25-м -19,5(2,5%)
3-я панель(26-37)-19,0(5,0%)
37-м -19,0(5,0%)
4-я панель(38-67)-19,5(2,5%)
67-м -19,1(4,5%)

Для 50 поколений
12м-48,8(2,4 %)
2-я панель(13-25)-46,6(6,8%)
25-м -47,1(5,2%)
3-я панель(26-37)-44,9(10,2%)
37-м -44,9(10,2%)
4-я панель(38-67)-47,2(5,6%)
67-м -45,1(9,8%)

Для 100 поколений
12м-95,6(4,4%)
2-я панель(13-25)-88,2(11,8%)
25-м -91,3(8,7%)
3-я панель(26-37)-83,9(16,1%)
37-м -83,5(16,5%)
4-я панель(38-67)-90,3(9,7%)
67-м -84,0(16,0%)

Для 150 поколений
12м-140,7(6,2%)
2-я панель(13-25)-127,0(15,3%)
25-м -132,6(11,6%)
3-я панель(26-37)-119,9(20,1%)
37-м -118,9(20,7%)
4-я панель(38-67)-130,3(13,1%)
67-м -119,5(20,3%)

Для 200 поколений
12м-184,6(7,7%)
2-я панель(13-25)-162,3(18,9%)
25-м -171,4(14,3%)
3-я панель(26-37)-154,2(22,9%)
37-м -151,9(24,1%)
4-я панель(38-67)-168,1(16,0%)
67-м -152,6(23,7%)

Для 250 поколений
12м-227,1(9,2%)
2-я панель(13-25)-199,1(20,4%)
25-м -210,6(15,8%)
3-я панель(26-37)-187,3(25,1%)
37-м -184,3(26,3%)
4-я панель(38-67)-204,4(18,2%)
67-м -184,4(26,2%)

Закономерность очевидна. Наименьшее занижение на 1-й панели, где в основном среднескоростные маркеры,есть медленные, но нет очень быстрых.Самое большое занижение даёт 3-Я панель, где несколько наиболее быстрых маркеров. Таким образом большая разница в скоростях маркеров даёт большее занижение. С увеличением возраста ошибка увеличивается.

Таким образом для правильного применения линейного метода необходимо рассчитывать поправку не по среднему, а для каждого маркера отдельно.Но тут появятся свои трудности.
По предварительным заявлениям, Каржавин и Адамов в своей новой работе по моделированию планируют для линейного метода ввести поправку на возвратные мутации в общую рекомендуемую поправку. Но если они не учтут ошибку расчётов по среднему, то и общая поправка будет с существенной ошибкой.

Оффлайн VVR

  • ...
  • Сообщений: 2456
  • Страна: ua
  • Рейтинг +618/-0
  • Y-ДНК: o.R1a1a1b1a2a1a1a1e~-YP569,YP1260+;м.R1a1a1b1a1a1a2~-L260,YP1337+
  • мтДНК: K1c1h
Кстати. эту же ошибку допускает Clavis, используя свой график, рассчитанный для средней скорости маркера.А ведь он считает как правило большие возраста. Отсюда и существенное занижение возраста. Предполагаю, что не только отсюда.
« Последнее редактирование: 14 Июль 2010, 01:30:24 от VVR »

Оффлайн VVR

  • ...
  • Сообщений: 2456
  • Страна: ua
  • Рейтинг +618/-0
  • Y-ДНК: o.R1a1a1b1a2a1a1a1e~-YP569,YP1260+;м.R1a1a1b1a1a1a2~-L260,YP1337+
  • мтДНК: K1c1h
Вот примерчик на 9 маркерах, который я приводил в дискуссии с АК. Дискуссии правда не получилось. АК просто забанил меня, не согласившись с аргументами и не доказав, что я не прав.
Ну если Вам нравятся скорости этого набора маркеров(практически совпадают у Чандлера,Нордтведа и Клёсова), приведу пример на нём.Распишу подробно, поскольку я понял, что мои расчёты по поравке на возвратные мутации никто даже не пытался проверять.
DYS393. Скорость по Чандлеру 0,00076. На 250 поколениях на этом маркере должно быть 0,00076Х250=0,19 фактических мутаций . По формуле обратной формуле Адамова 0,1736.
Аналогично для остальных 8 маркеров.
DYS390. 0,00311Х250=0,7775 факт.мутаций. 0,5639 набл.мутаций
DYS19. 0,00151Х250=0,3755 факт.мут. 0,3166 набл.мут.
DYS391. 0,00265Х250=0,6625 факт.мут. 0,5002 набл.мут.
DYS426. 0,00009Х250=0,0225 факт.мут. 0,0223 набл.мут.
DYS388. 0,00022Х250=0,0550 факт.мут. 0,0535 набл.мут.
DYS439. 0,00477Х250=1,1925 факт.мут. 0,7600 набл.мут.
DYS389-1.0,00186Х250=0,4650 факт.мут. 0,3781 набл.мут.
DYS392. 0,00052Х250=0,1300 факт.мут. 0,1221 набл.мут.
Для проверки сложим количество факт. мутаций
0,19+0,7775+0,3755+0,6625+0,0225+0,055+1,1925+0,465+0,13=3,8705
Делим на количество маркеров 3,8705/9=0,43006
Делим на среднюю скорость 0,43006/0,00172=250 поколений.
Теперь считаем как обычно, по наблюдаемым мутациям.
Суммируем мутации.
0,1736+0,5639+0,3166+0,5002+0,0223+0,0535+0,76+0,3781+0,1221=2,8903
Делим на количество маркеров 2,8903/9=0,32114
По формуле Адамова рассчитываем количество мутаций с учётом поправки
0,38237
Делим на среднюю скорость. 0,38237/0,00172=222,3 поколения
Занижение ((250-222,3)/250)Х100=11,1% по 1-й ошибке. По 2-й(популяционный эффект) берём близко к минимуму 15%.
Итого округлённо 25%
250 поколений=6250 лет Вычитаем25%=округлённо 4700 лет. Вот и получается по R1a1 вместо 6-7тыс.лет, которые отлично согласуются с данными лингвистики,археологии, антропологии у Клёсова получилось 4800 лет.

Оффлайн Nimissin

  • Сообщений: 2403
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Уважаемый VVR. Полагаю, что Ваши расчеты сделаны правильно. Но... Вы ушли далеко вперед. Наверное, Вы обратили внимание на то, что все модели рассматривают одиночный локус. Совокупность маркеров никто всерьез не изучал, сейчас все данные усредняются. Причем, как Вы показали, не очень корректно. Я делал попытку вывести формулы для нескольких локусов в самой первой статье про возвратные мутации (Вестник № 4 за 2008 год). И с тех пор все время занимался отдельным локусом. Формулы, по которым Вы считали, выведены в предположении о независимости мутаций. По сути предполагается, что генеалогическое древо рода имеет следующий вид: у предка количество сыновей равно числу гаплотипов в выборке. Далее все ветви развиваются независимо по схеме: у каждой особи только по одному сыну, от сына только один внук и т.д. В финальной популяции каждый изучаемый гаплотип соответствует отдельной ветви, берущей начало от предка. В реальности родовые деревья могут иметь самый разный вид. Мутации в гаплотипах уже не являются независимыми. Поэтому погрешности в оценке TMRCA велики. Популяционные погрешности в каждом локусе превышают рассчитанные Вами искажения вследствие разницы в скоростях мутаций. Если скорости мутаций в маркерах отличаются в 100 раз, то, конечно, такое искажение будет заметно. В используемых же маркерах разница в скоростях не такая большая. К тому же ошибки в определении самих скоростей мутаций также велики.

Тем не менее, надеюсь, что скоро будут разработаны адекватные модели и для совокупности маркеров. И Ваши рассуждения должны быть учтены. Мое личное мнение - сначала надо оценивать возраст по отдельному локусу, затем усреднять полученные возрасты по всем маркерам гаплотипа. В первую очередь это относится к методу ASD.

Оффлайн Clavis

  • Семенов Михаил Юрьевич
  • Сообщений: 1495
  • Страна: ru
  • Рейтинг +111/-0
    • https://m.vk.com/@clavis1953
  • Y-ДНК: G2a2 L1264
  • мтДНК: HV9, ранее известная как HV3a
Кстати. эту же ошибку допускает Clavis, используя свой график, рассчитанный для средней скорости маркера.А ведь он считает как правило большие возраста. Отсюда и существенное занижение возраста. Предполагаю, что не только отсюда.
Меня посещали подобные сомнения. Год или полтора назад я пробовал смоделировать ситуацию. Правда, не так радикально как Вы. У меня половина маркеров имела скорость 0,001, а другая половина втрое выше - 0,003. Контрольный вариант - все имеют среднюю скорость 0,002. Результаты двух вариантов отличались настолько ничтожно (в сравнении с неизбежной погрешностью расчета, о которой все знают), что я оставил попытки.
А поскольку я давно отказался от расчета разветвленных цепей (другими словами, дисперсии в выборке), популяционный эффект у меня отсутствует. Он как бы в другом измерении.
« Последнее редактирование: 14 Июль 2010, 08:04:51 от Clavis »

Оффлайн Nimissin

  • Сообщений: 2403
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Корректура текста статьи завершена. Спасибо большое уважаемой Пенелопе!

Оффлайн asan-kaygy

  • ...
  • Сообщений: 9613
  • Страна: kz
  • Рейтинг +945/-5
  • Y-ДНК: R1a1a1b2a1a-L657+,Y9+,Y944+
Хорошая новость.

Оффлайн Аббат Бузони

  • ...
  • Сообщений: 19888
  • Страна: ru
  • Рейтинг +1818/-60
  • Y-ДНК: I1-SHTR7+
  • мтДНК: H16-a1-T152C!
Пенелопа жива?

Оффлайн Nimissin

  • Сообщений: 2403
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Считаю, что уважаемая Пенелопа блестяще справилась с версткой непростой в оформительском плане статьи, изобилующей рисунками, формулами, таблицами и т.п.

Оффлайн пенелопа

  • Главный модератор
  • *****
  • Сообщений: 6502
  • Страна: ru
  • Рейтинг +2722/-13
  • мтДНК: H1b
Пенелопа жива?
Спасибо ;D, все в порядке. Это была моя личная битва с математикой и за математику в плане верстки.

Уважамый Дмитрий, спасибо за теплые слова :D Наши математики - симпатичнейшие люди в мире...
« Последнее редактирование: 15 Июль 2010, 10:30:31 от пенелопа »

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.