Тема: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011) (Прочитано 19759 раз)

Каржавин · « **Ответ #30 :** 20 Май 2011, 18:24:37 »

Цитата: VVR от 20 Май 2011, 17:44:04

.Предлагаю на основе метода Адамова-Каржавина метод интеркладовых среднеарифметических модалов. Допустим построено дерево и мы видим, что от БОП дерева отходит две линии - условно A и B. Ветвь B в дальнейшем делится ещё на две ветви - условно B1 и B2. Тогда формула будет такой XM=[XMa+(XMb1+XMb2)/2]/2. Если допустим В2 будет делится на две ветви условно Bа2A и B2B формула XM=[XMa+(XMb1+(XMb2a+XMb2b)/2)/2]/2.

Можете даже рекуррентную процедуру нарисовать. Только важен будет порядок по старшинству субкладов в генеалогическом древе.

wertner · « **Ответ #31 :** 21 Май 2011, 05:53:54 »

Цитата: Каржавин от 20 Май 2011, 18:11:30

Наш метод дает несмещенную максимально правдоподобную оценку, обладающую минимумом дисперсии ошибки как для TMRCA, так и для истинного предкового галпотипа, и в классе линейных оценок я не вижу способа здесь что-либо усовершенствовать.

На каждой итерации вычисляйте возраст ветви и более старшую ветвь учитывайте с бОльшим весом, чем младшую

Ведь у старшей ветви было меньше шансов на мутацию и ее предковый должен быть ближе к общему предковому.

Каржавин · « **Ответ #32 :** 21 Май 2011, 12:41:09 »

Цитата: wertner от 21 Май 2011, 05:53:54

Цитата: Каржавин от 20 Май 2011, 18:11:30
Наш метод дает несмещенную максимально правдоподобную оценку, обладающую минимумом дисперсии ошибки как для TMRCA, так и для истинного предкового галпотипа, и в классе линейных оценок я не вижу способа здесь что-либо усовершенствовать.
На каждой итерации вычисляйте возраст ветви и более старшую ветвь учитывайте с бОльшим весом, чем младшую
Ведь у старшей ветви было меньше шансов на мутацию и ее предковый должен быть ближе к общему предковому.

В настоящее время Метод выборочных пар дает НЕСМЕЩЕННУЮ оценку TMRCA. Этот факт не только аналитически получен (допустим, вывод формул неверный), но и проверен статистическим моделированием, причем, алгоритм моделирования весьма сложный, и использует массу популяционных параметров. Количество генеалогических деревьев, которое моделировалось для проверки метода, исчислялось десятками тысяч. Поведение качества оценки было вполне адекватным задаваемым параметрам скоростей мутаций, глубине генеалогических деревьев и прочим параметрам. Производилась проверка алгоритма моделирования на всяких "сингулярных" случаях.
Ваше предложение, как я понимаю, касается процедуры вычисления предкового гаплотипа. В настоящее время такая процедура, в том виде, как она изложена в нашей статье, уже дает несмещенную оценку, и здесь ничего не улучшить. Следовательно, разговор может идти только об уменьшении дисперсии ошибки вычисления предкового гаплотипа. Но наша исходная процедура основана на вычислении выборочного среднего, которое является максимально правдоподобной оценкой с минимальной границей дисперсии. Как оценку улучшить в этом плане? Есть одно соображение, а именно, уменьшить дисперсию ошибки за счет привлечения большего количества пар галоптипов, которые можно составить по данной выборке.
Смысл предложенного нами метода заключается в том, что мы каждый раз выделяем собственный "генеалогический" путь по ветвям, который соединяет начального предка с каким-либо финальным потомком, и на этом генеалогическом пути любая мутация, независимо от того, давно она была или нет, одинаково сдвигает значение аллеля в "плюс" или в "минус". А тот факт, что влияние древних мутаций отзывается в значениях аллелей не одного, а многих финальных потомков, и чем старше мутация, тем в бОльших потомках она отзовется, проявляется в нашем Методе тем, что дисперсия ошибки хоть и уменьшается с увеличением количества пар, по которым мы вычисляем оценку TMRCA, но значительно медленнее, чем это могло бы быть в случае, если бы все финальные потомки развивались по собственным генеалогическим путям независимо друг от друга.
Я приведу простой пример с вычислением дисперсии на основе выборки коррелированных нормально распределенных измерений. Корреляция в данном случае - это аналог того, что значения аллеля у разных финальных потомков связаны через прошлые общие мутации. Очевидно, и многие об этом забывают, что формула
D = (1/N)*SUM (Xi-M)^2 = (2/N^2) SUM SUM (Xi-Xj)^2 (1)
справедлива только для случая некоррелированных измерений, а если есть корреляция, то формула значительно усложняется. У нас аналогичная ситуация. Измерениями являются значения аллелей в каком-либо маркере у разных финальных потомков. И эти измерения (значения аллелей) коррелированы, поскольку от начального предка до каждого из финальных потомков есть общие мутации. Следовательно, и формула вычисления дисперсии должна была быть иная, а не как все привыкли в квадратичном и кросс-дисперсионном методах.
Вернемся к нашей выборке нормально распределенных коррелированных случайных величин {X(1),X(2),...,X(n)}. А вот интересно, в каких условиях можно пользоваться формулой (1) для вычисления дисперсии, если измерения на самом деле коррелированы? Очевидно, что если корреляция экспоненциально затухает и стремится к нулю только на бесконечности, то нельзя. А вот если имеется такое "расстояние" r между измерениями при котором корреляция становится нулевой, то можно. Для этого мы сформируем не все возможные пары {X(i),X(j)}, как это имеет место в правой части формулы (1), а только пары следующего типа: {X(1),X(r)}, {X(2),X(r+1)},{X(3),X(r+2)},...,{X(n-r),X(n)}. Таким образом, мы можем воспользоваться правой частью формулы (1), абсолютно наплевав на конкретный вид корреляции (по аналогии, на конкретный вид генеалогического древа), который имеется на расстояниях, меньших величины r. Как видим, нам достаточно только знания радиуса корреляции r и более ничего, чтобы определенным образом отобрать измерения для вычисления дисперсии. С оценкой матожидания (по аналогии, предкового галоптипа) все несколько проще, поскольку среднее значение оценки матожидания по коррелированной выборке не зависит от корреляции, но от нее зависит разброс этой ошибки.
У нас ситуация весьма похожая. Возьмем наугад пару i-го и j-го финальных потомков (аллели у них X(i) И X(j) соответственно). Найдем каким-то образом (не будем уточнять, каким) глубину в поколениях T1, на которой находился их БЛИЖАЙШИЙ общий предок. Понятно, что от этого ближайшего и до начального предка (глубина T0) у них имеется ровно столько общих предков, сколько поколений отделяет ближайшего общего предка от начального предка (заметим, что "начальный предок" - это в некоторой степени условность, некая точка отсчета. Имеется в виду то, что начальный предок, для субклада R1a это совсем не начальный предок гаплогруппы R1, и тем более гаплогруппы R.
Точно так же и в нашей ситуации, мы сначала выясняем, какие именно потомки (гаплотипы) сходятся к общему предку (пусть его глубину T1 мы и не знаем пока), а затем, зная структуру дерева (хотя бы до субкладов по снипам), мы отбираем только такие пары, которые не имеют взаимной корреляции, то есть, не имеют общих частей генеалогических путей, соединяющих каждого из них с общим предком. Вот только в этом случае мы имеем право использовать формулу (1). Очевидно, что для той же пары, но по отношению к более "глубокому" (глубже, чем Т1) их общему предку корреляция появится, и чем глубже мы возьмем их очередного общего предка, тем больше будет эта корреляция.

Ваша идея, уважаемый Wertner, может быть применена, если мы хотим использовать все возможные пары гаплотипов, и тогда действительно мы должны как-то учесть те самые корреляции (общие участки генеалогических путей) в виде весовых коэффициентов (а корреляции в формуле вычисления дисперсии коррелированных величин действительно используются как весовые коэффициенты). Но лично я пока не вижу, как это математически написать. Возможно, Ваша идея рекуррентных соотношений с весовыми коэффициентами позволит привлечь к вычислению TMRCA и предкового галоптипа большее количество пар исходных гаплотипов, и, тем самым, несколько понизит разброс обеих оценок.

VVR · « **Ответ #33 :** 22 Май 2011, 23:40:26 »

Перехожу к TMRCA - методу выборочных пар Адамова-Каржавина.
Попробую объяснить сущность метода и сравнить с известными мне похожими.
Как и при оценке предкового гаплотипа в методе нужно построить дерево исследуемой группы гт и выбрать пары соответствующие условиям метода, т.е. пары, общий предок которых был бы в начальной точке всего дерева, т.е. БОП(MRCA) всего дерева. Ранее я уже показывал, что такие пары состоят из одного гаплотипа одной ветви(клады, субклада) и одного гаплотипа другой ветви (клады,субклада). Таким образом, выборочные пары - это интеркладовые пары. Соответственно метод по своей сути интеркладовый.

Мне известны такие интеркладовые методы:
- интеркладовый ASD,применяемый Нордтведом(квадратичный),
- интеркладовый, предложеный Клависом (линейный),
- упрощённый вариант, который по сущности с некоторой натяжкой тоже можно назвать интеркладовым, применяемый Клёсовым для дерева, разбитого на две ветви (линейный)
Основной недостаток линейных методов общеизвестен - необходимость учёта поправок на возвратные мутации. Поскольку в методе Адамова-Каржавина разность значений маркеров возводится в квадрат, то ближе всего к их методу интеркладовый ASD Нордтведа.

По сравнению с методом Нордтведа в методе выборочных пар два абсолютно новых и принципиальных отличия.
1) Поскольку недостатком квадратичных методов считается завышение возраста в результате многошаговых мутаций, в новом методе предложено теоретически хорошо обоснованное решение для учёта влияния многошаговых мутаций. По этому решению у меня есть УТОЧНЯЮЩИЕ вопросы к авторам. Пока в практических примерах я применял метод без использования заложенного в метод учёта влияния многошаговых мутаций. Поэтому сказать как оно будет работать на практике пока не могу.
2)Второе новое решение, предложенное в методе - расчёт по оценке TMRCA призводится по всем выборочным(интеркладовым) парам для каждого маркера отдельно с учётом интенсивности мутаций(скорости) каждого маркера, затем берётся среднее арифметическое полученных возрастов всех маркеров. В методе Нордтведа разности квадратов суммируются по всем парам гаплотипов и по всем маркерам, а затем вычисляется возраст с применением интенсивности мутаций(скорости) всего гаплотипа.
Что это даёт? В результате занижение возраста в результате популяционных эффектов (своё мнение, откуда берётся популяционное влияние во всех интеркладовых методах я выскажу позже) в методе Адамова-Каржавина получается меньше, чем у Нордтведа. Это показывают и рассчитанные примеры. Показать в общем виде, почему получается эта разница в результатах двух методов у меня не получилось, но если необходимо, могу показать на простом и очевидном примере.
Таким образом, результаты расчётов по оценке TMRCA методом Адамова-Каржавина будут точнее, чем результаты методом Нодтведа.

VVR · « **Ответ #34 :** 22 Май 2011, 23:42:02 »

Теперь о главном, на мой взгляд, недостатке статьи, акцентирую - именно статьи, а не метода.
Поскольку в методе необходимо применять интенсивности мутаций по каждому маркеру , определённые по парам "отец-сын", а такие интенсивности определяются с погрешностью,то на мой взгляд, обязательно необходимо было исследовать влияние различных(близких к реальным) погрешностей определения этих величин на конечный результат и показать это исследование в статье.
В результате такого исследования уже можно было бы сказать, являются эти погрешности недостатком метода или нет. Без такого исследования метод многими будет поставлен под сомнение.
В подтверждение моего мнения процитирую из сообщения Каржавина на форуме

Цитата: Каржавин от 17 Май 2011, 14:05:54

Все-таки, метод надо было всесторонне исследовать, получить погрешности и прочее. А если этого нет, то возникает не то, чтобы недоверие, но отсутствие энтузиазма у пользователей.

Каржавин · « **Ответ #35 :** 23 Май 2011, 12:07:40 »

Цитата: VVR от 22 Май 2011, 23:42:02

Теперь о главном, на мой взгляд, недостатке статьи, акцентирую - именно статьи, а не метода.
Поскольку в методе необходимо применять интенсивности мутаций по каждому маркеру , определённые по парам "отец-сын", а такие интенсивности определяются с погрешностью,то на мой взгляд, обязательно необходимо было исследовать влияние различных(близких к реальным) погрешностей определения этих величин на конечный результат и показать это исследование в статье.
В результате такого исследования уже можно было бы сказать, являются эти погрешности недостатком метода или нет. Без такого исследования метод многими будет поставлен под сомнение.
В подтверждение моего мнения процитирую из сообщения Каржавина на форуме
Цитата: Каржавин от 17 Май 2011, 14:05:54
Все-таки, метод надо было всесторонне исследовать, получить погрешности и прочее. А если этого нет, то возникает не то, чтобы недоверие, но отсутствие энтузиазма у пользователей.

Статья, в которой, в частности, рассмотрен вопрос о влиянии погрешности знания интенсивностей мутаций "отец-сын", рассмотрен в статье, которая уже лежит в Редакции журнала

(таки у нас было!)
Вместе с тем, сразу скажу, что если ошибки знания скоростей мутаций разбросаны в "плюс" и "минус" примерно одинаково, то за счет усредняющих свойств ASD метода все становится хорошо. Кроме того, Метод выборочных пар можно (и нужно)применять и для гаплотипов в целом, т.е., используя суммарную интенсивность мутаций по множеству маркеров, как это всегда и делалось. Другое дело, что калибровки интенсивностей мутаций по известным в истории генеалогиям имеют популяционную погрешность, чего не имеют интенсивности "отец-сын". Но в этом случае свои проблемы. Сравнение обоих методов калибровки и выработка какой-то общей разумной стратегии по этим калибровкам - это наша с Дмитрием очередная задача.

Каржавин · « **Ответ #36 :** 23 Май 2011, 12:53:04 »

Цитата: VVR от 22 Май 2011, 23:40:26

... выборочные пары - это интеркладовые пары. Соответственно метод по своей сути интеркладовый.

Строго говоря, это интеркладоый метод - частный случай Метода выборочных пар, когда нет филогенетического древа, а есть только отдельные данные типа разнесения по субкладам.
А с точки зрения вычислительной процедуры, интеркладовые методы не учитывают важных вещей.

Цитата: VVR от 22 Май 2011, 23:40:26

1) Поскольку недостатком квадратичных методов считается завышение возраста в результате многошаговых мутаций, в новом методе предложено теоретически хорошо обоснованное решение для учёта влияния многошаговых мутаций.
Пока в практических примерах я применял метод без использования заложенного в метод учёта влияния многошаговых мутаций. Поэтому сказать как оно будет работать на практике пока не могу.

И на практике обязано работать, поскольку оно математически выведено из модели мутаций, которая пока пересмотру не подлежит (пуассоновский поток мутаций,независимость осуществления мутаций в большинстве маркеров и всякое такое)

Цитата: VVR от 22 Май 2011, 23:40:26

2)Второе новое решение, предложенное в методе - расчёт по оценке TMRCA призводится по всем выборочным(интеркладовым) парам для каждого маркера отдельно с учётом интенсивности мутаций(скорости) каждого маркера, затем берётся среднее арифметическое полученных возрастов всех маркеров. В методе Нордтведа разности квадратов суммируются по всем парам гаплотипов и по всем маркерам, а затем вычисляется возраст с применением интенсивности мутаций(скорости) всего гаплотипа.
Что это даёт? В результате занижение возраста в результате популяционных эффектов (своё мнение, откуда берётся популяционное влияние во всех интеркладовых методах я выскажу позже) в методе Адамова-Каржавина получается меньше, чем у Нордтведа. Это показывают и рассчитанные примеры.

Занижение в стандартных ASD методах и, возможно, в интеркладовом Нортведта (а в формуле в том виде, которую я видел у него, похоже косяк, но нужна последняя версия формулы, а ее у меня нет, поэтому пока это только предположение) имеет очевидную причину - отсутствие учета взаимной корреляции в вычислении дисперсии (точнее, стохастической связи, поскольку под корреляцией имеется в виду вполне определенный вид такой связи). Я вообще не понимаю, как такую простейшую вещь все игнорировали? Достаточно было в учебник посмотреть, чтобы увидеть, что в случае коррелированной выборки вычисление по формуле
D = (1/N)SUM(Xi-Mx)^2
дает ЗАНИЖЕННЫЙ результат? Мы с Дмитрием в Методе выборочных пар обошли это препятствие тем, что выбираем ЗАВЕДОМО взаимно стохастически не связанные (некоррелированные) измерения. И поэтому нам абсолютно по барабану, какого вида эти корреляции (то есть какие тонкости в строении филогенетического древа, кроме того, что выбранные пары имеют в качестве ближайшего общего предка истинного предка).

Линейный метод - это и есть способ учета той самой корреляции, которая "успешно" проигнорирована в ASD методе. Поскольку структура генеалогического дерева предполагалась неизвестной, и эти самые "корреляции" вообще непонятно откуда было брать и как их учитывать, тем более неясно (неясно и сейчас, но в Методе выборочных пар они вообще игнорируются). Дмитрий и предложил "хитрый" способ с помощью искусственно введенного понятия "возвратные мутации" как бы "декоррелировать" процесс мутаций и приблизить (увеличить) оценку к истинному значению TMRCA. Как-то так.

Каржавин · « **Ответ #37 :** 23 Май 2011, 16:07:30 »

Цитата: VVR от 22 Май 2011, 23:40:26

Пока в практических примерах я применял метод без использования заложенного в метод учёта влияния многошаговых мутаций. Поэтому сказать как оно будет работать на практике пока не могу.

После того, как я получил результирующие формулы для матожидания и дисперсии аллеля для случая многошаговых мутаций, у меня тоже была какая-то неуверенность в простом получении результата (Дмитрий в свое время за эту неуверенность меня укорял и не видел нужным проверить все это моделированием). Тем не менее, я написал отдельную модель для проверки теоретических формул. Суть моделирования в следующем.
Задается интервал времени, скажем, в T=200 поколений,и задается интенсивность мутаций, скажем, Lambda=0.0025. Затем, с начального значения аллеля, скажем, m0=20, начнем процесс изменения этого начального значения под воздействием мутаций. Первая мутация придет через несколько поколений, а вот количество этих поколений ожидания очередной мутации вычисляется генератором случайных чисел по экспоненциальному закону с показателем степени 1/(Lambda*T). Как только подошло время мутировать, генератором случайных чисел с соответствующими вероятностями {p1,...,pz;q1,...,qz} задается изменение аллеля на соответствующее количество повторов в "плюс" или в "минус". Затем опять моделируем новое время ожидания, а следующая мутация опять с этими вероятностями с помощью генератора случайных чисел изменяла уже измененную аллель на новое количество повторов, и так далее, пока не истечет срок в T=200 поколений. Таким образом, получалось значение аллеля у ОДНОГО ЕДИНСТВЕННОГО финального потомка. И таких циклов моделирования потока мутаций я делал 100 тысяч раз, чтобы построить гистограмму аллеля у финального потомка. Одновременно с гистограммой вычислял по данной статистике матожидание и дисперсию. Они всегда совпадали с тем, что получается теоретически. Уровень совпадения полностью исключает случайность такого совпадения.
Проверял всяческие соотношения вероятностей {p1,...,pz;q1,...,qz} (для каждого проверяемого сочетания делал 100 тыс опытов для построения гистограммы и вычисления матожидания и дисперсии). Так что, я спокоен на этот счет. И не вижу никаких проблем, чтобы эта формула не работала по той причине, что вся эта куча вероятностей в формулах получается в виде множителя к оценке количества накопленных мутаций mu = (Lambda*T). И если максимально правдоподобную несмещенную оценку количества мутаций mu разделить на числовой коэффициент (сумма всяких сочетаний вероятностей p1,..., q1,...) то результат деления, т.е., TMRCA будет также максимально правдоподобной несмещенной оценкой.
Именно поэтому я теперь лично доверяю такой оценке для случая многошаговых мутаций.

VVR · « **Ответ #38 :** 23 Май 2011, 16:38:51 »

Для пробных примеров расчётов по оценке TMRCA методом Ад.-К. брал 51 маркер - 67м гт без маркеров палиндр. участков,т.к. они дают многошаговые RecLOH-мутации.DYS425, который также находится на палиндр. участке,включал в расчёты. Null-делецию в нём считал за одну мутацию.Кроме того разделил маркеры по скорости на 3 группы и считал для каждой группы отдельно. 1)медл.-до 0,00060(21м), 2)средн.-от 0,00060 до 0,00350(19м), 3)быстр.- выше 0,00350(11м)

Каржавин · « **Ответ #39 :** 23 Май 2011, 16:58:13 »

Цитата: VVR от 23 Май 2011, 16:38:51

Для пробных примеров расчётов по оценке TMRCA методом Ад.-К. брал 51 маркер - 67м гт без маркеров палиндр. участков,т.к. они дают многошаговые RecLOH-мутации.DYS425, который также находится на палиндр. участке,включал в расчёты. Null-делецию в нём считал за одну мутацию.Кроме того разделил маркеры по скорости на 3 группы и считал для каждой группы отдельно. 1)медл.-до 0,00060(21м), 2)средн.-от 0,00060 до 0,00350(19м), 3)быстр.- выше 0,00350(11м)

Ужасть как хочется посмотреть, что у Вас получится

VVR · « **Ответ #40 :** 23 Май 2011, 17:00:53 »

Для сравнения те же примеры рассчитывал методом Норд. с теми же скоростями.

Пример 1. 7гт R1a1a*-61гт R1a1a1(Veneds)-
Ад.-К. общ.-368покол.,медл.-652,средн.-209,быстр.-95.
Норд. общ-156,медл-710,средн-186,быстр-93.

Пример 2. 7гт R1a1a*-12гт R1a1a1g*(RussiaDNA)-
Ад.-К. общ-395,медл-648,средн-274,быстр-119.
Норд.- общ-202,медл-690,средн-294,быстр-112.

Пример 3. 61гт R1a1a1(Veneds)- 12гтR1a1a1g*(RussiaDNA)
Ад.-К. Общ-196,медл-240,средн-184,быстр-135.
Норд. Общ-166,медл-269,средн-212,быстр-133.

Пример 4. 7гт R1a1a* -11гт E1b1b1a2*(Balkans)RussDNA.
Ад.-К.Общ-943,медл-1591,средн-541,быстр-399.
Норд.Общ-473,медл-1366,средн-559,быстр-351.

Пример 5. 61гт R1a1a1(Veneds)- 11гт E1b1b1a2*(Balkans).
Ад.-К. Общ-839,медл-1175,ср-680,быстр-470.
Норд. Общ-519,медл-1086,ср-658,быстр-397.

VVR · « **Ответ #41 :** 23 Май 2011, 17:13:11 »

Результаты по группам разными методами примерно равны, а общий возраст методом Норд. всегда меньше.Небольшой возраст(прим3)-разница между группами относительно небольшая. Средний возраст(прим.1,2)-разница больше, особенно между медл. и остальными маркерами- занижение большое не только на быстр. маркерах,но и на средн.На медл. маркерах занижения вероятно нет.Большой возраст(прим.4,5)- разница существенная между группами. Занижение на всех маркерах

Каржавин · « **Ответ #42 :** 23 Май 2011, 17:30:15 »

Цитата: VVR от 23 Май 2011, 17:13:11

Результаты по группам разными методами примерно равны, а общий возраст методом Норд. всегда меньше.Небольшой возраст(прим3)-разница между группами относительно небольшая. Средний возраст(прим.1,2)-разница больше, особенно между медл. и остальными маркерами- занижение большое не только на быстр. маркерах,но и на средн.На медл. маркерах занижения вероятно нет.Большой возраст(прим.4,5)- разница существенная между группами. Занижение на всех маркерах

Именно занижение у Нордведта! Все в соответствии с теорией! А на очень медленных маркерах это занижение менее ощутимо. Усё, панимаете-ли, верно

VVR · « **Ответ #43 :** 25 Май 2011, 23:47:59 »

Цитата: Каржавин от 23 Май 2011, 17:30:15

Именно занижение у Нордведта! Все в соответствии с теорией! А на очень медленных маркерах это занижение менее ощутимо. Усё, панимаете-ли, верно

Я тут переформатировал своё сообщение с результатами, чтобы удобнее было сравнивать. Посмотрите метод Ад.-Карж - на медл. маркерах возраст получился почти в 7 раз больше, чем на быстрых. Тенденции очевидны. Тут даже не свалишь на неточные скорости маркеров.
Кстати, скорости(интенсивность мутаций) я брал Чандлеровские, рассчитанные им на условное поколение (25 лет). Соответственно, результаты в условных(25 лет) поколениях.

Каржавин · « **Ответ #44 :** 26 Май 2011, 11:27:40 »

Цитата: VVR от 25 Май 2011, 23:47:59

Цитата: Каржавин от 23 Май 2011, 17:30:15

Именно занижение у Нордведта! Все в соответствии с теорией! А на очень медленных маркерах это занижение менее ощутимо. Усё, панимаете-ли, верно
Я тут переформатировал своё сообщение с результатами, чтобы удобнее было сравнивать. Посмотрите метод Ад.-Карж - на медл. маркерах возраст получился почти в 7 раз больше, чем на быстрых. Тенденции очевидны. Тут даже не свалишь на неточные скорости маркеров.
Кстати, скорости(интенсивность мутаций) я брал Чандлеровские, рассчитанные им на условное поколение (25 лет). Соответственно, результаты в условных(25 лет) поколениях.

Ваши результаты очень интересны. Различия в возрасте, по каким бы маркерам мы ни считали, быть не должно. А у Вас это различие достигает 7 раз между быстрыми и медленными. Могут две причины:
1. Оценка калибровочных скоростей мутаций неправильная.
2. Есть межмаркерная корреляция, которой мы раньше пренебрегали, точнее, НЕ МОГЛИ ЗАМЕРИТЬ, а теперь она вылезла в полный рост. В статистике оно именно так и происходит: если нет возможности измерить, то его и не видно глазом, и в формулах оно не учитывается. Но, на мой взгляд, нет физических причин для возникновения такой корреляции.
Чтобы обнаружить межмаркерную корреляцию, нужно огромное количество статистики по парам "отец-сын",поскольку нужно будет строить спектр условных (двумерных) вероятностей.

Заметьте, что и у метода Нортведта ТОЖЕ САМОЕ сильное различие между быстрыми и медленными маркерами. Повторяю: или есть наличие корреляции, которое одинаково проявляется в обоих методах, или это ошибки со скоростями мутаций. НО В КОРРЕЛЯЦИЮ Я И САМ ОСОБО НЕ ВЕРЮ.

Если Вы делали калибровки скоростей по реальным генеалогиям, типа Мак-Дональдов, Сейидов и пр., то здесь ОБЯЗАН проявиться различный популяционный сдвиг для быстрых и медленных маркеров. В калибровке скоростей по тем методам, которые сейчас используются, Адамов лучше меня разбирается, поскольку мне эти методы не нравились с самого начала, и я даже не хотел лезть в тонкости (и так ясно, что такие методы временные до тех пор, пока не накопится достаточной статистики по парам "отец-сын").
Также заявляю, что различие результатов МЕЖДУ МЕТОДАМИ Ад-Кар и Нортведта - ПОНЯТНОЕ ПО СМЫСЛУ, и так и должно быть.
Я УВЕРЕН, что это ошибки калибровки скоростей теми методами, которые Вы делали (или делали другие, а Вы использовали).
Будем разбираться с популяционным сдвигом, который в разной степени проявляется для быстрых и медленных маркеров на реальных генеалогиях.

АвторТема: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011) (Прочитано 19759 раз)

Каржавин

Re: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011)

wertner

Re: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011)

Каржавин

Re: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011)

VVR

Re: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011)

VVR

Re: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011)

Каржавин

Re: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011)

Каржавин

Re: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011)

Каржавин

Re: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011)

VVR

Re: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011)

Каржавин

Re: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011)

VVR

Re: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011)

VVR

Re: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011)

Каржавин

Re: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011)

VVR

Re: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011)

Каржавин

Re: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011)