АвторТема: Обсуждение: Расчёт ВБОП по раздельным панелям Y-STR маркеров, отсортированных по  (Прочитано 15043 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
С.Каржавину. Что касается "обратных" мутаций, то они по всей статье идут в кавычках и сразу объяснено, что никакие они ни обратные, а самые что ни на есть обычные. Что касается "поправки Адамова", то она (в основном) так в статье и проходит - сдается, что впервые именно так и проходит. А метод Монте-Карло - это та же арифметика, я с ним на 4-м курсе в конце 70-х плотно познакомился, причем от того, кто его в СССР первым и внедрял для моделирования процессов взаимодействия ядерных частиц с веществом. Вы попробуйте методом Монте-Карло показать, что логарифмический метод имеет хоть какую-то основу. Успехов.
1. Возвратных мутаций не существует в природе. И никакие они не обычные, а это фантом, но очень удобный для некоторых расчетов. Когда мы, анализируя пару гаплотипов "отец-сын", обнаруживаем различие в количестве повторов какого-либо маркера, то мы можем определить, как изменилось количество повторов, в положительную или отрицательную сторону (т.е., понятия "положительная" и "отрицательная" мутация вполне физические понятия). А для того, чтобы понять, эта мутация ("положтельная" или "отрицательная") является возвратной или нет, надо знать, в какую сторону была предыдущая мутация (а была эта мутация эдак 100-200 поколений назад). А узнать мы этого ФИЗИЧЕСКИ не можем, поскольку для этого нужны ископаемые гаплотипы.  Поэтому подсчитывать количество фантомных мутаций можно только в том случае, если мы четко понимаем, что делаем это сугубо для очень ограниченного класса методов (например, для линейного метода).
2. Доказывать, что деление маркеров на панели и проведение отдельных расчетов по панелям хуже, чем по полному гаплотипу оставляю Вам для тренировки. Я это сделал, промоделировал, посчитал, и хотел даже что-то типа статьи написать. Но это оказалось настолько очевидным, что мне даже стало немного стыдно облекать это в какое-то, пусть даже мелкое, достижение. Ответ можно было бы получить и при вдумчивом осмыслении, не привлекая моделирования и прочих вычислительных технологий.
3. А логарифмический метод мне, откровенно говоря вообще неинтересен. Есть еще метод химической кинетики  ;D
« Последнее редактирование: 01 Декабрь 2011, 21:28:47 от Каржавин »

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Цитировать
Возвратных мутаций не существует

это на тему "в космосе нет ни верха ни низа"? :)

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Цитировать
Возвратных мутаций не существует

это на тему "в космосе нет ни верха ни низа"? :)
Именно так! Возвратная она или нет, можно понять только в отношении ее к другим мутациям, а не из ее собственных свойств.

Оффлайн Slavar

  • Сообщений: 164
  • Страна: ru
  • Рейтинг +26/-3
  • 297896
  • Y-ДНК: Ra1a1a-CTS3402+
  • мтДНК: U4a2a
Сергей, если бы Вам логарифмический метод был не интересен, то Вы бы на расчеты этим методом в своих последних работах не ссылались бы, не так ли? Проясните, пожалуйста. Может быть я заблуждаюсь в своей оценке приложимости "кинетики второго порядка"? Неопределенность сбивает с толку тех, кто сам проверить не сможет, а Вы авторитет. Все таки, по-Вашему мнению, нужно ли считать одинаковые гаплотипы за близких родственников (случайно попавших в выборку) и сливать их в один гаплотип или нужно ориентироваться на "кинетику второго порядка" и расчитывать логарифмический возраст выборки (ветви)?

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Сергей, если бы Вам логарифмический метод был не интересен, то Вы бы на расчеты этим методом в своих последних работах не ссылались бы, не так ли? Проясните, пожалуйста. Может быть я заблуждаюсь в своей оценке приложимости "кинетики второго порядка"? Неопределенность сбивает с толку тех, кто сам проверить не сможет, а Вы авторитет. Все таки, по-Вашему мнению, нужно ли считать одинаковые гаплотипы за близких родственников (случайно попавших в выборку) и сливать их в один гаплотип или нужно ориентироваться на "кинетику второго порядка" и расчитывать логарифмический возраст выборки (ветви)?
Ссылались на логарифмический метод, не спорю, но фактически в "библиографическом" смысле. Кто-то ведь продолжает считать этим методом. Поэтому решено было и его упомянуть и дать сравнительную оценку и по этому методу. Но я настоятельно советую забыть про него как можно быстрее.  :)
А вот проблема однородности выборки действительно стоит. Но именно здесь очень помогает "метод выборочных пар". Дело в том, что если в выборке имеются в основном гаплотипы из какого-то региона и вполне возможно, что их общий предок намного моложе предка всего проверяемого субклада, то небольшое количество гаплотипов исследуемого субклада, взятых из весьма "далекой" ветви (регионально и генеалогически) в "обычных" методах расчета TMRCA мало повлияют на результат, и оценка будет близка ко времени жизни общего предка основной части гаплотипов. А вот метод выборочных пар, благодаря наличию "удаленных" от всей массы небольшой совокупности гаплотипов, "почувствует" более глубокого общего предка как основной массы гаплотипов (условно, первой ветви), так и этой группки (второй ветви). Конечно, если этих "посторонних" гаплотипов совсем немного, то разброс оценки TMRCA будет достаточно велик, чудес не бывает, и чем меньше статистики (в данном случае пар гаплотипов, имеющих в качестве общего ближайшего предка истинного родоначальника), то тем больше разброс оценки.
Здесь имеются в виду пары гаплотипов составленные так: один гаплотип в паре взят из главной кучи, а второй - из этой удаленной ветки. Очевидно, что общее количество пар будет РАВНО количеству гаплотипов в МЕНЬШЕЙ группе, независимо от того, насколько больше гаплотипов в бОльшей группе (ветви). Вот такая плата за возможность действительно добраться до их общего начального предка. Понятно, что если в малой кучке всего пара-тройка гаплотипов, то и точность оценивания будет весьма мала (имеется в виду большой разброс, хотя матожидание оценки TMRCA все равно будет несмещенным относительно истинного значения возраста).

Хочу добавить по поводу разделения маркеров на отдельные "панели" и проведению расчетов TMRCA отдельно по ним. Я слегка слукавил в прошлом своем посте. Мне совсем неочевидно было сначала, что вариант разбиения на панели хуже, чем оценивать сразу по всему гаплотипу. Но  промоделировав, на ряде специально созданных тестовых задач, а потом разделив 67-ми маркерный гаплотип на три "панели" по частотам мутаций (взяты из последних зарубежных пкбликаций по парам "отец-сын"), однозначно увидел, что лучше работать как и раньше с целым гаплотипом. А потом, посмотрев внимательно на формулы, подумав денек-другой, понял, что можно было и не моделировать, чтобы получить данный ответ.

Соображаловки у меня не хватает, вот и заменил ее на моделирование.  ;D
« Последнее редактирование: 02 Декабрь 2011, 11:27:41 от Каржавин »

Оффлайн Slavar

  • Сообщений: 164
  • Страна: ru
  • Рейтинг +26/-3
  • 297896
  • Y-ДНК: Ra1a1a-CTS3402+
  • мтДНК: U4a2a
Спасибо за разъяснение! Я отбираю/считаю меньше года и «логарифм.метод» не использовал изначально хотя бы по той простой причине, что его автор на мои возражения («это иллюзия, вызванная к жизни очень коротким 12-ти маркерным форматом») не смог ничего ответить, т.е. абсолютно ничего, из чего я понял, что он и сам в него не особенно верит (но пропагандирует по инерции). 
Для массивных выборок «метод выборочных пар»  - хороший сепаратор. Но глубокое снипирование коммерческих выборок – это мощный конкурент. Оно уже очень сильно облегчило жизнь, а прогресс в снипировании просто лавинообразный. Не накроет ли?
Не примите за саморекламу, но ранжирование маркеров по скоростям мутации тоже облегчает отбор: то, что я наотбирал в отдельные ветви полгода назад, в ноябре с.г. в большинстве случаев комфортно улеглось в те же самые ветки, но уже означенные соответствующими снипами (или их отрицанием). Хотя обнаружились и неизбежные ляпы.
Что касается отдельных панелей, то они нужны для того, чтобы для каждого конкретного случая «отбросить» самые быстрые панели, заведомо приводящие к заниженному результату (что показано графиками). Например, для ветвей с ВБОП от 400-500 лет и больше нужно однозначно вывести из расчета панель CDYa,b и считать по 65-маркерным гаплотипам. Для ветвей с возрастом от 1700-2000 лет и больше нужно отбросить (6-ую) панель быстрых маркеров  (DYS442,481, 449, 570, 576) и считать по 60-маркерным гаплотипам. И так дальше. Усредняя данные по принятым к расчету "правильным" панелям я произвожу операцию расчета по усеченному (для "правильности") формату гаплотипа.  Мне не понятно, зачем малой частью самых быстрых маркеров ЗАВЕДОМО вводить себя в заблуждение?

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Для массивных выборок «метод выборочных пар»  - хороший сепаратор. Но глубокое снипирование коммерческих выборок – это мощный конкурент. Оно уже очень сильно облегчило жизнь, а прогресс в снипировании просто лавинообразный. Не накроет ли?
Не накроет, однозначно. Напротив, снипирование помогает строить правильные филогенетические деревья, а метод выборочных пар как раз и использует филогению. Правда, есть еще и метод выборочных пар с рандомизацией, которому филогения необязательна.
С другой стороны, снипирование позволяет выстроить точное дерево, но оно не дает масштабов длин ветвей в поколениях. Представим себе случай, что у нас есть ВСЕ снипы. Даже в этом случае из-за постоянного на всех поколениях прерывания части генеалогических ветвей будут появляться на ПОЧТИ полном генеалогическое древе неветвящиеся участки в несколько поколений и поэтому с неопределяемой длиной. Думаю, и здесь подсчет количества мутаций методом выборочных пар (по отдельным ветвям разного уровня) поможет.
ранжирование маркеров по скоростям мутации тоже облегчает отбор: то, что я наотбирал в отдельные ветви полгода назад, в ноябре с.г. в большинстве случаев комфортно улеглось в те же самые ветки, но уже означенные соответствующими снипами (или их отрицанием). Хотя обнаружились и неизбежные ляпы.
Как вспомогательный метод - безусловно полезно  :)

Что касается отдельных панелей, то они нужны для того, чтобы для каждого конкретного случая «отбросить» самые быстрые панели, заведомо приводящие к заниженному результату (что показано графиками). Например, для ветвей с ВБОП от 400-500 лет и больше нужно однозначно вывести из расчета панель CDYa,b и считать по 65-маркерным гаплотипам. Для ветвей с возрастом от 1700-2000 лет и больше нужно отбросить (6-ую) панель быстрых маркеров  (DYS442,481, 449, 570, 576) и считать по 60-маркерным гаплотипам. И так дальше. Усредняя данные по принятым к расчету "правильным" панелям я произвожу операцию расчета по усеченному (для "правильности") формату гаплотипа.  Мне не понятно, зачем малой частью самых быстрых маркеров ЗАВЕДОМО вводить себя в заблуждение?
Уж если и отбрасывать, то наверное те маркеры, в которых мало данных для получения правильной частоты мутаций. В конце концов, я не настаиваю на сохранении всех маркеров. Это обсуждение тянет чисто в словесные дискуссии, которых я не очень люблю.

Оффлайн Slavar

  • Сообщений: 164
  • Страна: ru
  • Рейтинг +26/-3
  • 297896
  • Y-ДНК: Ra1a1a-CTS3402+
  • мтДНК: U4a2a

Оффлайн Slavar

  • Сообщений: 164
  • Страна: ru
  • Рейтинг +26/-3
  • 297896
  • Y-ДНК: Ra1a1a-CTS3402+
  • мтДНК: U4a2a
Я добираюсь до более раннего предка по-другому.
Например, имеем кластер конечных ветвей современных потомков  (КВСП) из узла R1b1a2a1a1b3c-L2/S139. Общий их предок – это собственно этот узел, но выделялись эти разные ветви на разных этапах от разных потомков этого предка. В этом кластере из всех коммерческих гаплотипов в формате 67FTDNA у меня отобралось 6 ветвей (КВСП). Определяю ВБОПы всех этих ветвей, нахожу их базовые гаплотипы и по ним восстанавливаю наиболее вероятный базовый гаплотип узла. Далее для каждой расчетной панели (из 7-ми) определяю число единичных мутационных сдвигов базового гаплотипа каждой ветви относительно базового узла и по числу этих сдвигов в каждой расчетной панели определяю временной сдвиг каждой ветви относительно родительского узла – также как считал ВБОПы, только число (базовых) гаплотипов равно 1. Возраст узла определяется усреднением сумм ВБОП и временных сдвигов, что есть расстояние от настоящего времени до предка узла, поскольку это конечные ветви СОВРЕМЕННЫХ потомков.
Расстояния от современности (нашего времени) до родительского узла для этих шести ветвей кластера узла R1b1a2a1a1b3c-L2/S139 выглядят следующим образом:
R1b1a2a1a1b3c-L20neg-German7 (N=4, 4250 лет) - 4.25+0.9 = 5.15 тлн,
R1b1a2a1a1b3c-Italian17 (N=14, 3525 лет) - 3.52+0.25 = 3.77 тлн,
R1b1a2a1a1b3c-L20neg-British37 (N=37, 3500 лет) -3.5+0.25 = 3.75 тлн,
R1b1a2a1a1b3c-Levit10 (N=10, 3200 лет) - 3.2+0.25 = 3.45 тлн,
R1b1a2a1a1b3c-L20neg-French7 (N=7, 2925 лет) - 2.93+0.25 = 3.18 тлн,
R1b1a2a1a1b3c-Russian3 (N=3, 2550 лет) - 2.55+2.1 = 4.65 тлн
или в среднем 4.0±0.7 тлн.
4 тлн и считаю наиболее вероятным возрастом общего предка этих 6-ти КВСП или возрастом узла  R1b1a2a1a1b3c-L2/S139. Нисходящий узел R1b1a2a1a1b3c1-L20 аналогично датируется двумя ветвями как 3.5±0.4 тлн, что подтверждает (и дополняет) полученную датировку родительского узла: 3.5 тлн+ сдвиг 0.6 тлн = 4.1 тлн.
Далее поднимаюсь все выше – сначала до узлов R1b (23.3 тлн) и R1a (22.7 тлн), а далее до их общего родителя - стволового узла R1-M173, первую датировку которого определяю по ветвлению R1b (23.3 тлн+ сдвиг 2 тлн= 25.2 тлн), а вторую - по ветвлению R1a (22.7 тлн + сдвиг 1.1 тлн = 23.8 тлн) или усредняя получаю датировку узла R1 = 24.5±1 тлн.
Далее плюсую сдвиг от базового для R получаю первую датировку для R, а вторую по ветвям R2, что датирует R как 27.5±2.8 тлн.
Далее стволовой узел Р по R и Q датируется в итоге как 34.5 тлн. 
Далее до первой реперной точки (приход людей в Ц.Азию - Кара-Бом, 46.5-45 тлн) в лице  K(xLT) = 46 тлн – по ветвлению Р и NO.
Затем ещё дальше – до стволовых узлов К (LT, 46.5 тлн), IJK (50.8 тлн), F (53.3 тлн), CF (70 тлн), до второй реперной точки в лице «Выхода-из-Африки» СТ = 71.6 тлн. Далее поднимаюсь до  стволовых узлов ВТ (84 тлн), A2T (98 тлн), A1aT (104 тлн) и, наконец,  до корня древа («Адама») – около 114 тлн. Т.е. «Адам» у меня получается примерно около людей Скхула и Квавзеха (Палестина). Интересно, что базовый гаплотип «Адама» экстраполируется (хоть и грубо из-за плохой представленности африканцев) к некоему среднему для всех ветвей и узлов (более 700 базовых). По идее так вроде бы и должно быть.
В итоге получаю все Y-древо в виде (снипированной) таблицы из более, чем 700 базовых гаплотипов в формате 67FTDNA c датировками всех конечных ветвей и узлов – от корня до самых крайних. Плюс сравнение с датировками мито-узлов, которые выглядят наиболее вероятными ИСХОДНЫМИ мито-партнершами. Плюс для большинства гаплогрупп возможны климатические корреляции по острым пикам увлажненности Аравии, как наиболее значимого района для ледниковых убежищ для кланов E1b1b1, G, IJK (J, L, T), R, R2, R1 (R1a, R1b).
Вот как-то так. Было бы интересно сравнить с другими подходами.

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Я добираюсь до более раннего предка по-другому.
Например, имеем кластер конечных ветвей современных потомков  (КВСП) из узла R1b1a2a1a1b3c-L2/S139. Общий их предок – это собственно этот узел, но выделялись эти разные ветви на разных этапах от разных потомков этого предка. В этом кластере из всех коммерческих гаплотипов в формате 67FTDNA у меня отобралось 6 ветвей (КВСП). Определяю ВБОПы всех этих ветвей, нахожу их базовые гаплотипы и по ним восстанавливаю наиболее вероятный базовый гаплотип узла.
1. Каким методом находите ВБОП (TMRCA?).
2. Что такое базовый гаплотип? Я никак не могу понять, что сие такое. Это:
- среднеарифметический гаплотип с дробными аллелями?
- среднеарифметический гаплотип с аллелями, округленными до ближайшего целого?
- наиболее вероятный гаплотип (которого часто вообще не существует, что легко показать)?

Оффлайн Slavar

  • Сообщений: 164
  • Страна: ru
  • Рейтинг +26/-3
  • 297896
  • Y-ДНК: Ra1a1a-CTS3402+
  • мтДНК: U4a2a
1.ВБОП считаю по раздельным ранжированным панелям (как в обсуждаемой статье). Для снипированных выборок сходимость датировок для разных панелей стала лучше, причем усредненные датировки линейным методом с поправкой Адамова стали ближе к датировкам методом ASD. Похоже, снипирование существенно уменьшило ошибки при отборе ветвей.
2. Базовый конечной ветви современных потомков определяю усреднением с округлением до ближайшего целого. Если в ряде маркеров наблюдаются явно двугорбые гистограммы, то пытаюсь разделить выборку на две, а то и три-четыре ветви, стремясь к тому, чтобы среднее (во всех маркерах) все же было ближе к целому (1 предок), а не к половине (два и более предков). Пока что в ряде случаев прийти к одному предку не удается из-за малого числа гаплотипов в выборках. Иногда приходится мириться с возможностью слияния двух (и более) ветвей.
Базовый гаплотип родительского узла определяю по базовым всех ветвей кластера с оглядкой на:
- их ВБОПы, т.е., чем древнее ветвь, тем меньше у нее должны быть мутационные сдвиги относительно базового родительского узла (в итоге меньше временной сдвиг от базового узла) и
- на базовые нисходящего и родительского узла - интерполяция, предполагающая наследование базового от отца к сыну с минимальными изменениями.
Т.е. процедура утрясания базовых гаплотипов узлов почти бесконечная: стоит ввести несколько новых (снипированных) ветвей в кластер какого-то узла, как приходится «утрясать» базовые гаплотипы чуть ли не всей макрогаплогруппы (например, R1b) и даже, иногда, родительского стволового узла. Таким образом проводил утряску для всего дерева около 4-5 раз: в целом датировки основных (стволовых) узлов остаются примерно теми же, но при введении все новых и новых ветвей и узлов улучшается сходимость расстояний от современности до узла кластера для разных ветвей этого кластера, т.е. возраст узла определяется с меньшей погрешностью, чем по меньшему числу конечных ветвей современных потомков. Откуда я сделал вывод, что чем полнее дерево, тем более достоверны датировки узлов и вся Y STR филогения. Которая, кстати, следует строго в фарватере SNP-филогении последних версий ISOGG2011.

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
1.ВБОП считаю по раздельным ранжированным панелям (как в обсуждаемой статье). Для снипированных выборок сходимость датировок для разных панелей стала лучше, причем усредненные датировки линейным методом с поправкой Адамова стали ближе к датировкам методом ASD. Похоже, снипирование существенно уменьшило ошибки при отборе ветвей.
2. Базовый конечной ветви современных потомков определяю усреднением с округлением до ближайшего целого. Если в ряде маркеров наблюдаются явно двугорбые гистограммы, то пытаюсь разделить выборку на две, а то и три-четыре ветви, стремясь к тому, чтобы среднее (во всех маркерах) все же было ближе к целому (1 предок), а не к половине (два и более предков). Пока что в ряде случаев прийти к одному предку не удается из-за малого числа гаплотипов в выборках. Иногда приходится мириться с возможностью слияния двух (и более) ветвей.
Базовый гаплотип родительского узла определяю по базовым всех ветвей кластера с оглядкой на:
- их ВБОПы, т.е., чем древнее ветвь, тем меньше у нее должны быть мутационные сдвиги относительно базового родительского узла (в итоге меньше временной сдвиг от базового узла) и
- на базовые нисходящего и родительского узла - интерполяция, предполагающая наследование базового от отца к сыну с минимальными изменениями.
Т.е. процедура утрясания базовых гаплотипов узлов почти бесконечная: стоит ввести несколько новых (снипированных) ветвей в кластер какого-то узла, как приходится «утрясать» базовые гаплотипы чуть ли не всей макрогаплогруппы (например, R1b) и даже, иногда, родительского стволового узла. Таким образом проводил утряску для всего дерева около 4-5 раз: в целом датировки основных (стволовых) узлов остаются примерно теми же, но при введении все новых и новых ветвей и узлов улучшается сходимость расстояний от современности до узла кластера для разных ветвей этого кластера, т.е. возраст узла определяется с меньшей погрешностью, чем по меньшему числу конечных ветвей современных потомков. Откуда я сделал вывод, что чем полнее дерево, тем более достоверны датировки узлов и вся Y STR филогения. Которая, кстати, следует строго в фарватере SNP-филогении последних версий ISOGG2011.
1. Все оценки, полученные на основе использования линейного метода, имеют систематическую ошибку, занижающую истинный возраст. Мы с Дмитрием это показали в нескольких статьях. Линейный метод хорош в качестве получения быстрого начального приближения и для людей, которые не могут написать сложную программу расчета.
2. Базовые гаплотипы являются "фантомными" и никакому предку (истинному или промежуточному) не соответствуют. Для больших времен они могут сильно отличаться от истинных предковых. Базовые гаплотипы всегда МОЛОЖЕ предковых. Самое неприятное то, что в зависимости от индивидуальной истории ветви различие между истинным временем жизни началного предка и кажущимся может в отдельных случаях "гулять" в разы. Попытка использовать базовые гаплотипы разных ветвей для нахождения времени разделения этих ветвей и особенно вида гаплотипа в момент разделения этих ветвей обладают очень высокой дисперсией ошибки (лично моделировал и этот факт проверял).
Все Ваши дальнейшие рассуждения должны учитывать эти две изначальные систематические погрешности используемого Вами метода.
« Последнее редактирование: 03 Декабрь 2011, 14:57:58 от Каржавин »

Оффлайн Slavar

  • Сообщений: 164
  • Страна: ru
  • Рейтинг +26/-3
  • 297896
  • Y-ДНК: Ra1a1a-CTS3402+
  • мтДНК: U4a2a
 1.   Вы показали для случая формата гаплотипа, включающего маркеры с КСМ, отличающимися в десятки-сотни раз, не так ли? Поправка Адамова для линейного метода в предположении использовании расчета по одному маркеру (или гаплотипу с маркерами, имеющими близкие скорости мутаций) выведена корректно. Она совершенно адекватно отражает ситуацию для формата гаплотипа, маркеры которого имеют близкие скорости мутации. Поэтому, если провести абсолютную калибровку КСМ маркеров используемого формата, ранжировать маркеры по КСМ и разбить формат  (67FTDNA, 37FTDNA, 25FTDNA, 12FTDNA, 17Yfiler и др.) на отдельные расчетные панели с динамическим диапазоном КСМ не более 2-х, то линейный метод с попр. Адамова даст достоверные датировки, примерно совпадающие с датировками методом ASD. В чем вся прелесть поправки Адамова – так это в том, что из нее можно вывести выражение для оценки одного шага мутаций для любого маркера. И вот тут появляется критерий для выведения маркеров из расчета для каждой конкретной ветви – соответственно её возрасту, последовательно оцениваемому по самым медленным панелям с приближением к самым быстрым. Как я отметил, для хорошо отобранных, снипированных, выборок сходимость датировок линейным и ASD становится ещё лучше. Причина занижения линейного метода при использовании полного формата (включающего маркеры в сверхшироком динамич. диапазоне КСМ) прозрачна -  быстрые маркеры, попадающие на вторые  (и более) шаги мутаций занижают ВБОП. Для ASD в этом случае проявляется компенсатор как раз из-за того, что занижающие (быстрые) маркеры испытывают два (и более) шага, что при возведении в квадрат несколько нивелирует проблему занижения истинного возраста. Адепты линейного м. с попр. Адамова говорят, что ASD завышает ВБОП по сравнению с линейным. На самом деле, при наличии в формате маркеров попадающих при возрасте ветви на четные шаги мутаций оба этих метода должны занижать ВБОП, но у ASD частично срабатывает указанный компенсатор.
2.   Дак, учитываю. При нормальной экспансии ветви от предка базовый гаплотип конечной ветви современных потомков, отдаленных от этого предка на какое угодно большое расстояние, должен быть идентичен предковому. Увеличивается лишь разброс в отдельных маркерах для разных потомков, что и позволяет рассчитать ВБОП. От этого и пляшем. Другое дело, что реальные выборки гаплотипов современных потомков могут неадекватно отражать ВСЕХ потомков этого предка. Но это проблема для любого метода установления предкового гаплотипа. На мой взгляд, чтобы нивелировать эту проблему, и нужно строить как можно более полное дерево, т.е. прослеживать ВСЮ историю - а вернее создавать свой суррогатный вариант этой истории (другого нет и не будет). Чем больше мы получим таких суррогатных вариантов, тем проще можно будет установить наиболее вероятный.  Можно попробовать сравнить с ископаемыми базовыми гаплотипами, хотя в ряде случаев нет никакой уверенности, что эти костяки оставили современных нам потомков, а потому нет уверенности, что данные костяки участвуют в устанавливаемой нами филогении. Существует несколько ископаемых базовых гаплотипов, например, 2 базовых у 9-ти тагарцев R1a1, один базовый для 20-ти одинаковых G2a-Р15+ из Трейле (неолит, Франиция), 2 гаплотипа I2a1-Р37.2 оттуда же, 3 гаплотипа R1a1 «шнуровиков» из Эйлау и др.  Я сравнил существующие базовые гаплотипы с теми, что восстановил для соответствующих узлов: наблюдаются отличия на один повтор в одном-двух маркерах, редко в трёх (из 12-ти или 17-ти сравниваемых), что является вполне нормальным для конечных ветвей современных потомков.
Ну, а главное то не в этом, а в том, что датировки предковых узлов сшиваются с датировками узлов потомков, причем датировки и тех, и других установлены по ВБОПам ветвей из РАЗНЫХ кластеров. А если таких последовательных узлов, например, 5-7 в ряду и все их датировки сшиваются друг с другом, то это о чем нибудь говорит, не так ли?  Метод расчета ВБОП по раздельным панелям работает РЕАЛЬНО и я его применил (надеюсь, что достоверно) и для расчета сдвигов между конечными ветвями современных потомков и родительскими узлами.     

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Уважаемый Slavar, все, что Вы словесно описали, напишите пожалуйста в виде формул и покажите их оптимальность. Хотя бы сравните с ASD методом, или с методом выборочных пар, или с линейным методом. Я не могу врубиться в словесные доказательства. Тем более, что Вы часто используете собственную терминологию, а также так излагаете мысли, как будто оппонет полностью в курсе Ваших идей и ему можно отрывками пояснить новые усовершенствования метода. Я так не умею :)

Оффлайн Slavar

  • Сообщений: 164
  • Страна: ru
  • Рейтинг +26/-3
  • 297896
  • Y-ДНК: Ra1a1a-CTS3402+
  • мтДНК: U4a2a
Нет смысла второй раз выводить формулу Адамова, если считаешь, что она выведена правильно. Равно как нет смысла повторять Ваш анализ (2008) о нечетных-четных шагах мутаций. Свои мысли я излагаю так, как они были изложены в опубликованной статье, где графики основанные на сотне-другой экспериментально полученных датировок показывают поочередное (по мере убывание древности ветвей) насыщение самых быстрых расчетных панелей. Сравнение линейного с ASD в статье выборочное, потому что ASD ввел в оборот уже при ответах резензенту. Для новых расчетов сравнение также проводил выборочно, потому что получалось примерно одно и то же обоими методами, а времени ASD расчеты у меня отнимают побольше (чисто технически). По базовым гаплотипам могу выслать Вам таблицу У-древа из более, чем 700 базовых гаплотипов - сравните со своими для тех же узлов, ветвей. Может быть никакой существенной разницы между нашими подходами и нет? Табличный файл doc занимает 7.8Мб. Есть желание и время?   

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.