АвторТема: Усреднённые возрасты и доверительные интервалы  (Прочитано 5147 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
для смешанных датасетов я делаю так: BEAST + подсовываю готовое дерево и запрещаю его оптимизировать + подсовываю украденный возраст YFull 1 или 2 относительно молодых веток и это работает )) Дает большие интервалы 95% GPD, но работает. Там, где нет Yfull веток (у нас есть данные из совсем медвежьих углов где медведя встретить проще чем расплатиться через paypal) - там только собственные калибровки или Ро-возраст для затравки, как псевдо-калибровка.

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
а куда мои два камента делись? они тематически не относились к случаю, где все данные - bigY

Оффлайн YaroslavАвтор темы

  • Сообщений: 18704
  • Страна: ru
  • Рейтинг +4679/-14
  • 76% East Europe + 17% Finland
  • Y-ДНК: J1a2b1a ZS3067, ЖМ: I2a1a2b1a1a1a1 FT37540, МЖМ: G2a2b1a1a1a2b2a FT159945
  • мтДНК: K1b1a1 T199C, МЖ: H13a1a1d
Если не сложно, хорошо бы обсуждение, начиная с этого сообщения выделить в отдельную тему, которую так и можно назвать Усреднённые возрасты и доверительные интервалы.

Вообще, заметил, что народ часто клюёт на усреднёнки и это приводит к искажённому восприятию.
« Последнее редактирование: 20 Декабрь 2020, 15:15:05 от Yaroslav »

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy

Оффлайн YaroslavАвтор темы

  • Сообщений: 18704
  • Страна: ru
  • Рейтинг +4679/-14
  • 76% East Europe + 17% Finland
  • Y-ДНК: J1a2b1a ZS3067, ЖМ: I2a1a2b1a1a1a1 FT37540, МЖМ: G2a2b1a1a1a2b2a FT159945
  • мтДНК: K1b1a1 T199C, МЖ: H13a1a1d
Не знаю в тему ли или нет, но вот похожий пример. У этих Жаровских общий предок родился в 1865 г., а возраст ещё год назад был посчитан в 50 лет:
https://www.yfull.com/tree/R-A16519/

В интервал 200<->50 ybp попадают :)

У обоих Жаровских не осталось ни одного приватного снипа. Согласно подсчётам YFull с таким количеством приватов они могут быть как родными братьями, так и потомками ближайшего общего предка, жившего 200 лет назад, что почти так и есть в реале.

Усреднённый возраст как обычно в загуле.
« Последнее редактирование: 20 Декабрь 2020, 22:04:02 от Yaroslav »

Оффлайн ВадимЗ

  • Сообщений: 332
  • Страна: ru
  • Рейтинг +212/-20
  • Y-ДНК: I-Y4882-A10230-Y152087+
  • мтДНК: H5a2
А у меня есть вопрос - что такое возраст предка? Когда тестируются очень близкие родственники, это уже интересно. Когда считают в поколениях - оно понятно. Когда в годах - то для близких родственников есть документальные даты жизни общего предка, которые либо попадают, либо не попадают в интервал. Я вижу четыре варианта:
1. Дата рождения последнего общего предка.
2. Дата смерти последнего общего предка, что сильно вряд-ли, поскольку на генетику потомков никак не влияет. К тому же можно тестироваться и при живом отце или деде, например.
3. Средняя дата между датами рождения братьев - основателей двух ветвей 
4. Эта дата никак не определена. Расчётный срок есть, но какой именно дате он должен соответствовать не решено.
И опять же от какой даты считать самих тестируемых
1. От средней даты между датами их рождения.
2. От средней даты между их тестированием.
Просто для калибровки сроков это как-то должно определяться.

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Сообщений: 5994
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Возраст YFull калиброван на определенном BEDе и образцах Anzik и не будет считаться нормально при некотором уровне несовпадения BEDов. Я регулярно сталкиваюсь с этой проблемой - наша библиотека не совпадает с FTDNAшной, у нас свой bigY )) Приходится его калибровать самостоятельно, на аргынах.
Валер, тут не совсем так. Дело в том, что у нас требование - покрытие bed'a более 70%. Практически все коммерческие и научные образцы соответствуют этому требованию. За исключением основной массы древней днк, но по ним мы не считаем возраст. В расчеты добавляются только те древние, у которых кроме покрытия bed'a есть еще и хорошее покрытие в глубину и днк не сильно деградировала. Таких единицы.
Изначально BED выбирался как раз из тех соображений, что он будет покрыт даже у самых слабых семплов самой слабой конторы, то есть Bigy500 у FTDNA)
Несовпадение бедов легко нивелируется в расчетах и самое плохое что может произойти - это расширение границы в 95%.

Кстати, интересно было бы покрутить ваш вариант таргетного секвенирования и посмтореть его bed ;)
Из медвежьего угла... В безвозмездное пользование так сказать)))

Оффлайн varang

  • Сообщений: 5364
  • Страна: fi
  • Рейтинг +1823/-8
    • Проект "R1a-Y417 & Subclades" (M458>L1029>YP417)
  • Y-ДНК: R1a-L1029-A14777
  • мтДНК: H2a1
Возраст YFull калиброван на определенном BEDе и образцах Anzik и не будет считаться нормально при некотором уровне несовпадения BEDов. Я регулярно сталкиваюсь с этой проблемой - наша библиотека не совпадает с FTDNAшной, у нас свой bigY )) Приходится его калибровать самостоятельно, на аргынах.
Валер, тут не совсем так. Дело в том, что у нас требование - покрытие bed'a более 70%. Практически все коммерческие и научные образцы соответствуют этому требованию. За исключением основной массы древней днк, но по ним мы не считаем возраст. В расчеты добавляются только те древние, у которых кроме покрытия bed'a есть еще и хорошее покрытие в глубину и днк не сильно деградировала. Таких единицы.
Изначально BED выбирался как раз из тех соображений, что он будет покрыт даже у самых слабых семплов самой слабой конторы, то есть Bigy500 у FTDNA)
Несовпадение бедов легко нивелируется в расчетах и самое плохое что может произойти - это расширение границы в 95%.

Кстати, интересно было бы покрутить ваш вариант таргетного секвенирования и посмтореть его bed ;)
Из медвежьего угла... В безвозмездное пользование так сказать)))

Владимир, огромное спасибо Вам за терпеливые и исчерпывающие объяснения!
Желаю дальнейшего и неуклонного осуществления всех Мечт!

Оффлайн Oxon

  • Сообщений: 1936
  • Страна: gb
  • Рейтинг +479/-4
А почему нельзя использовать древние образцы (про деградацию ясно), если они датированы другими научными способами?

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Валер, тут не совсем так. Дело в том, что у нас требование - покрытие bed'a более 70%.

значит, у тебя золотые руки - у меня при call rate 65% уже были искажения возраста ))
а вот если образцы только bigY, пусть даже 500 - возраст ближе к вашему

Оффлайн Srkz

  • Сообщений: 8462
  • Страна: ru
  • Рейтинг +4812/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
А почему нельзя использовать древние образцы (про деградацию ясно), если они датированы другими научными способами?
Для расчёта ВБОПа надо знать количество приватных снипов, а для плохих образцов это число правильно не определить.

Оффлайн kardes

  • Сообщений: 1143
  • Страна: ru
  • Рейтинг +1682/-11
  • Y-ДНК: G2a1
может в дальнейшем всё таки отрегулируется R-ARP5
https://yfull.com/tree/R-SUR51/

Бела III (754 ybp) как раз попадает в интервал 1550<->225 ybp. Я думаю, вряд ли когда-нибудь усреднённые SNP-возрасты (650 ybp в данном случае) будут с точностью совпадать с реальными (754 ybp в данном случае), мы слишком многого требуем от ДНК. С Белой III сейчас вообще разница, которой, как я считаю, можно пренебречь: ~100 лет.
Да, в указанный расчётный усреднённый промежуток этот узел ветвления укладывается, но если на древе йуфле уже висит священная корова, то и на этикетке к ней должна быть реальная дата производства, а не режущая глаз на порядок заниженная TMRCA 650 ybp.
Если Бела3, его родич  id:SRS6609007 и предок серба id:SRS6892240S делят 5 снп, то их общий узел по идее должен хотя бы на пару сотен лет старше ДР Белы3-1172г.
Вот если бы на это дерево вместо id:SRS и id:YF  залезли и Геза2, и Андраш2, то можно было указать железобетонный возраст их узла или же хотя бы навести мышу на Бела3-info, где и будет уточнение к этикетке и по фактическому и по математическому усреднённому возрасту.
Поступающие предложения о возможности включения документальных возрастов в древо, также можно было бы указывать в id:YF--info,
п.с. возможно мы уже занудствуем) но на древе же не предполагаемый id:SRS6609005, а реальный  Бела3.

Оффлайн YaroslavАвтор темы

  • Сообщений: 18704
  • Страна: ru
  • Рейтинг +4679/-14
  • 76% East Europe + 17% Finland
  • Y-ДНК: J1a2b1a ZS3067, ЖМ: I2a1a2b1a1a1a1 FT37540, МЖМ: G2a2b1a1a1a2b2a FT159945
  • мтДНК: K1b1a1 T199C, МЖ: H13a1a1d
А у меня есть вопрос - что такое возраст предка? Когда тестируются очень близкие родственники, это уже интересно. Когда считают в поколениях - оно понятно. Когда в годах - то для близких родственников есть документальные даты жизни общего предка, которые либо попадают, либо не попадают в интервал. Я вижу четыре варианта:
1. Дата рождения последнего общего предка.
2. Дата смерти последнего общего предка, что сильно вряд-ли, поскольку на генетику потомков никак не влияет. К тому же можно тестироваться и при живом отце или деде, например.
3. Средняя дата между датами рождения братьев - основателей двух ветвей 
4. Эта дата никак не определена. Расчётный срок есть, но какой именно дате он должен соответствовать не решено.
И опять же от какой даты считать самих тестируемых
1. От средней даты между датами их рождения.
2. От средней даты между их тестированием.
Просто для калибровки сроков это как-то должно определяться.

По идее от даты зачатия.) Ведь вроде как только при самом процЭссе © появляются новые снипы.

В частной теме уважаемого nilogov уже говорилось, что в действительности определяют возраст до ближайшего общего снипа (БОС), а не до генеалогически ближайшего общего предка (БОП), так как не факт, что именно у генеалогичесого БОПа возник данный БОС, а возникнуть этот БОС мог даже за 5 поколений до рождения БОПа.

Да и вообще, возраст по ДНК определяется интервально, а не точечно с указанием года (даже 14C определяет возраст интервально, хоть и в разы с более узким интервалом). Поэтому смысла от того, год ли это зачатия/рождения/смерти - нет, так как интервал покрывает всё это.
« Последнее редактирование: 21 Декабрь 2020, 14:04:14 от Yaroslav »

Оффлайн YaroslavАвтор темы

  • Сообщений: 18704
  • Страна: ru
  • Рейтинг +4679/-14
  • 76% East Europe + 17% Finland
  • Y-ДНК: J1a2b1a ZS3067, ЖМ: I2a1a2b1a1a1a1 FT37540, МЖМ: G2a2b1a1a1a2b2a FT159945
  • мтДНК: K1b1a1 T199C, МЖ: H13a1a1d
Для расчёта ВБОПа надо знать количество приватных снипов, а для плохих образцов это число правильно не определить.

Насколько я понимаю, имеется в виду указание на дереве возрастов образцов дДНК, определённых с помошью 14C, или известных из истории (как у Белы III).

Что YFull в общем-то и начал уже делать.

Я об этом говорил ранее:

Нет, насчёт того, чтобы указывать на дереве документальные возрасты - я абсолютно не против, если только это технически возможно. Как раз прекрасно проиллюстрирует, что усреднённые SNP-возрасты нужно ингнорировать, потому что они только сбивают с толку и порождают массу в реале ни на чём не основанных исторических интерпретаций.

Большой шаг вперёд, в том числе и в обсуждаемом вопросе - то, что на дереве YFull стали размещать 14C-возрасты образцов дДНК.

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Для расчёта ВБОПа надо знать количество приватных снипов, а для плохих образцов это число правильно не определить.

правильно - не определить, но когда количество ложноположительных превышает некий порог, они появляются не только в кроне, но и в стволах дерева - и там уже ясно что к чему, и можно примерно эмпрически рассчитать долю артефактов и соответственно узнать по этому признаку долю истинных приватов.

другое дело - а стоит ли вообще что-то считать по древним, если в них так много артефактов что они полезли в ствол?

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.