АвторТема: Обсуждение статей Д.Адамова и С.Каржавина (RJGG Vol.3 No.1 2011)  (Прочитано 18253 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Clavis

  • Семенов Михаил Юрьевич
  • Сообщений: 1497
  • Страна: ru
  • Рейтинг +111/-0
    • https://m.vk.com/@clavis1953
  • Y-ДНК: G2a2 L1264
  • мтДНК: HV9, ранее известная как HV3a
При разделении локусов по скоростям мутаций оба метода дают сходные результаты. Но по всем 51 маркерам оценки возраста различаются в два раза. Полагаю, что это и есть эффект, на который указал уважаемый VVR - занижение оценки возраста при использовании усредненной по всем маркерам скорости мутаций.
Cогласен. Это самый весомый фактор.

Оффлайн Каржавин

  • ...
  • Сообщений: 1806
  • Рейтинг +144/-2
... хотел более наглядно показать, где схожесть и где отличия в методах.
Схожесть очень большая. Различий два, но принципиальные.
-помаркерный расчёт
-учёт многошаговых мутаций.
1. Метод Нордведта (далее МН) оперирует субкладами. Метод выборочных пар (далее МВП) оперирует филогенетическим древом. В случае отсутствия филогенетического древа, но при наличии снипов, разносящих гаплотипы по субкладам, МВП сводится к МН. Напротив, МН при отсутствии субкладов, но при наличии филогенетического древа требует введения понятия псевдосубклад, т.е., деление совокупности гаплотипов на принадлежащие разным ветвям (псесдосубкладам).
2. МН никак не выведен из математической модели, а основан более на рассуждениях. Ниоткуда не следует, что ядро метода - вычисление дисперсии распределения аллелей - дает несмещенную максимально правдоподобную оценку накопленного количества мутаций. В МВП весь путь от формулировки математической модели до вывода вычислительной процедурыпроделан, правда, это заняло несколько статей. Показано, почему для "внутрикладового" ASD получается смещение оценки, а для "межкладового" ASD - нет. Да и много чего другого. Не никаких нелепых модальных гаплотипов для каждого субклада, которые появляются только от непонимания проблемы.
3. Для МН не проведена аттестация, не вычислены ошибки, не определены свойства оценки, что, вообще говоря, недопустимо для предложения метода к использованию. Для МВП такая аттестация проведена.
4. Для МВП показана (в отдельной статье), что можно "в лоб" использовать максимально правдоподобную оценку вместо ASD, что для малого количества маркеров и при плохом знании калибровочных значений интенсивностей мутаций даст несколько лучший результат по разбросу оценки.

Вся работа по созданию МВП и проведению аттестации была проведена без оглядки на кого бы то ни было. То. что во многих случаях это совпало с методом Нордведта, тем лучше для него. Тем не менее, повторяю, что если метод не аттестован, не исследованы его свойства, пользоваться им категорически нельзя. А это я наблюдаю на разных форумах постоянно: выдумываются различные процедуры, толком не исследуются, в большинестве случаев все ограничивается правдоподобными рассуждениями.

В конце концов, для меня лично МВП не конечная цель. Мне нужно, чтобы оценки TMRCA, которые народ будет публиковать в своих работах, были вычислены в соответствии с МВП, пусть и "по Нордведту". Главное, чтобы я им доверял, чтобы сам мог использовать далее в своих собственных исследованиях. А пока большинство публикуемых датировок не выдерживает никакой критики.

Надеюсь, что теперь всем стало очевидно, что несмотря на то, быстрые маркеры или медленные, никакого "популяционного" смещения оценки TMRCA БЫТЬ НЕ МОЖЕТ. Вся проблема только в точности измеренных интенсивностей мутаций (как обычно говорят, "скоростей мутаций", хотя никакого отношения к скоростям это не имеет. Уж лучше бы назвали "частота мутаций", и то более логично). Думаю, МВП при разделении на панели маркеров и использовании варианта МВП с усреднением по панелям маркеров дает возможность контроля за правильностью вычисления этих усредненных интенсивностей мутаций.
« Последнее редактирование: 06 Июнь 2011, 09:09:41 от Каржавин »

Оффлайн Clavis

  • Семенов Михаил Юрьевич
  • Сообщений: 1497
  • Страна: ru
  • Рейтинг +111/-0
    • https://m.vk.com/@clavis1953
  • Y-ДНК: G2a2 L1264
  • мтДНК: HV9, ранее известная как HV3a
Вся проблема только в точности измеренных интенсивностей мутаций (как обычно говорят, "скоростей мутаций", хотя никакого отношения к скоростям это не имеет. Уж лучше бы назвали "частота мутаций", и то более логично).
Можно назвать еще точнее: вероятность мутации. Но все уже привыкли к термину, и лучше будет не менять то, что укоренилось.

Оффлайн Каржавин

  • ...
  • Сообщений: 1806
  • Рейтинг +144/-2
Вся проблема только в точности измеренных интенсивностей мутаций (как обычно говорят, "скоростей мутаций", хотя никакого отношения к скоростям это не имеет. Уж лучше бы назвали "частота мутаций", и то более логично).
Можно назвать еще точнее: вероятность мутации. Но все уже привыкли к термину, и лучше будет не менять то, что укоренилось.
В общем, я с Вами согласен. Только немножечко уточню. Ваше предложение ДАЖЕ БОЛЕЕ КОРРЕКТНО, чем "частота мутаций". Дело в том, что в каждый "момент времени" (поколение) мутация или происходит или нет с определенной вероятностью Lambda или (1-Lambda) соответственно. Строго говоря, на "сильно" дискретном времени (дискрет времени не более, чем на один-два порядка меньше общего интервала наблюдения) мы имеем не пуассоновский поток, а ... поток Бернулли. Для очень-очень редких событий поток Бернулли (соответственно распределение Бернулли) аппроксимируется пуассоновским потоком, и в этом случае от вероятности Lambda осуществления мутации в каждом поколении переходят к частоте мутаций Lambda, которая уже имеет размерность [колич.мутаций/время].
Таки Вы будете смеяться, но моделирую я именно поток Бернулли, т.е., на каждом поколении в каждом маркере у каждого гаплотипа с вероятностью Lambda (разная, конечно, для разных маркеров) выясняю, есть или нет мутации. Именно в той терминологии, которую Вы упомянули.

Для пуассоновского потока среднее количество осуществившихся событий (мутаций) равно произведению ИНТЕНСИВНОСТИ мутаций Lambda [колич.мутаций/время] на интервал наблюдения T [время], т.е., Lambda*T.
Для потока Бернулли несколько сложнее. Сначала ищем вероятность того, что за T поколений (здесь время T строго дискретно и измеряется не в секундах или часах, а в количестве поколений) осуществится ровно n мутаций
P(n) = С(n,T)*(Lambda^n)*(1-Lambda)^(T-n)  - это БИНОМИАЛЬНОЕ распределение,
а затем вычисляется СРЕДНЕЕ КОЛИЧЕСТВО СОБЫТИЙ (мутаций), которое может осуществиться на интервале Т. И это значение равно тому же самому произведению Lambda*T. Но здесь Lambda - это вероятность и размерности не имеет, да и Т имеет размерность не времени, а количества поколений.

А к термину "скорость мутаций" постепенно привыкну  ;D
« Последнее редактирование: 07 Июнь 2011, 16:15:41 от Каржавин »

Оффлайн Nimissin

  • Сообщений: 2375
  • Рейтинг +750/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Направили уважаемой Пенелопе статью о проверке используемых методов оценки TMRCA по гаплотипам европейских цыган Н1а. Надеемся, что она будет легче для восприятия и поможет всем желающим разобраться в методах расчета возраста. В статье содержится систематическое изложение методов расчета возраста, за исключением метода МП.

Оффлайн пенелопа

  • Главный модератор
  • *****
  • Сообщений: 6242
  • Страна: ru
  • Рейтинг +2485/-13
  • мтДНК: H1b
Получено, спасибо! :)

Оффлайн VVRАвтор темы

  • ...
  • Сообщений: 2462
  • Страна: ua
  • Рейтинг +616/-0
  • Y-ДНК: o.R1a1a1b1a2a1a1a1e~-YP569,YP1260+;м.R1a1a1b1a1a1a2~-L260,YP1337+
  • мтДНК: K1c1h

1. Метод Нордведта (далее МН) оперирует субкладами. Метод выборочных пар (далее МВП) оперирует филогенетическим древом. В случае отсутствия филогенетического древа, но при наличии снипов, разносящих гаплотипы по субкладам, МВП сводится к МН. Напротив, МН при отсутствии субкладов, но при наличии филогенетического древа требует введения понятия псевдосубклад, т.е., деление совокупности гаплотипов на принадлежащие разным ветвям (псесдосубкладам).

Это вопросы понятий и внешней атрибутики. Суть то от этого не меняется. Ещё раз попрошу. Приведите пример, когда выборочные пары не являются интеркладовыми.

По п.2 и 3 в основном согласен. Проведено большое исследование. Но некоторые важные вопросы не исследованы.
1. Не исследовано, откуда занижение оценки на реальных деревьях, которое никак не спишешь на погрешности определения интенсивности мутаций.(Я сейчас этим занимаюсь).
2. Исследование этих погрешностей было проведено в последующей статье. Но неужели Вы думаете, что по парам отец-сын можно с 10% погрешностью определить интенсивности? На медленных маркерах может обнаружится одна или две мутации на все пары отец-сын, или ни одной. Разница в разы.
3. Могут быть филогенические ошибки, меняющие выборочные пары. Их влияние также не исследовано.


Надеюсь, что теперь всем стало очевидно, что несмотря на то, быстрые маркеры или медленные, никакого "популяционного" смещения оценки TMRCA БЫТЬ НЕ МОЖЕТ. Вся проблема только в точности измеренных интенсивностей мутаций
Абсолютно очевидно обратное. Теоретически(математически) Ваш метод безупречен. Теоретически действительно БЫТЬ НЕ МОЖЕТ. На реальных деревьях есть. На быстрых маркерах больше. Это очевидно. И ещё раз повторю, никак не спишешь на погрешности определения интенсивностей мутаций. Одну из причин я уже чётко вижу. Но не факт, что она одна.

Оффлайн Каржавин

  • ...
  • Сообщений: 1806
  • Рейтинг +144/-2
Цитировать
Надеюсь, что теперь всем стало очевидно, что несмотря на то, быстрые маркеры или медленные, никакого "популяционного" смещения оценки TMRCA БЫТЬ НЕ МОЖЕТ. Вся проблема только в точности измеренных интенсивностей мутаций
Абсолютно очевидно обратное. Теоретически (математически) Ваш метод безупречен. Теоретически действительно БЫТЬ НЕ МОЖЕТ. На реальных деревьях есть. На быстрых маркерах больше. Это очевидно. И ещё раз повторю, никак не спишешь на погрешности определения интенсивностей мутаций. Одну из причин я уже чётко вижу. Но не факт, что она одна.
Прошу прощения за поздний ответ, но на даче у меня Интернета нет  :)
Ну хорошо. Какие у Вас есть соображения по поводу различия результатов на "быстрых" и "медленных" маркерах? Только эти соображения желательно сформулировать как дополнительные постулаты к математической модели потока мутаций, т.е., надо постараться формализовать свои соображения, чтобы мы совместно смогли бы их включить в общий формализм.
В рамках той модели потока мутаций, которую мы пользуем постоянно, причем, безотносительно к модели роста популяций (что крайне важно!), я пока я не вижу иных причин, кроме ошибок в оценке интенсивностей мутаций.
Замечу, что реальные данные - плохой советчик в том, как Вы их используете. Мест для ошибок при обработке реальных данных - куча. Поэтому ВСЕГДА ФОРМУЛИРУЕТСЯ математическая модель, на основе которой формулируется решающее правило. Если результаты не лезут ни в какие ворота, и ясно, где именно и по какой причине это расхождение возникает, то соответственным образом изменяется математическая модель, соответственно корректируется и решающее правило.
А с калибровками интенсивностей (по-вашему, скоростей) мутаций пока полная неясность, разброд и шатания. Все эти группировки маркеров пока далеки от оптимальности (по какому критерию идет группирование маркеров, позвольте спросить?). В общем, ПОКА ПОЛНОСТЬЮ НЕ НАВЕДЕМ ЗДЕСЬ ЯСНОСТЬ, дальше двигаться невозможно.
А то, что 10% погрешности в интенсивностях мутаций может натворить бед, это однозначно! Сейчас мы как раз занимаемся исследованием погрешностей в оценке TMRCA при группировании на быстрые и медленные маркеры.

Оффлайн Каржавин

  • ...
  • Сообщений: 1806
  • Рейтинг +144/-2
Это вопросы понятий и внешней атрибутики. Суть то от этого не меняется. Ещё раз попрошу. Приведите пример, когда выборочные пары не являются интеркладовыми.
Действительно, можно построить филогенетическое древо и искусственно выделить "субклады" и свести к методу Нордведта. Меньше всего мы думали о том, как потрафить Нордведту. Метод выборочных пар получился как естественный результат анализа, вот и все дела.
Вместе с тем, я еще раз повторяю, пока не исследовано качество метода (свойства ошибок и пр. в зависимости от того-сего), этого метода НЕ СУЩЕСТВУЕТ. По крайней мере, в математической статистике это НЕПРЕЛОЖНОЕ ПРАВИЛО. Обычно, существует куча всяческих процедур вычисления какого-либо параметра по реальным данным, и только после всестороннего теоретического исследования какой-либо из этих процедур, выяснения ее качества и пределов применимости она становится "рабочей лошадкой". Я понимаю, что такого рода исследование - дело нудное, тяжелое и долгое, но без этого все расчеты и далеко идущие ДНК-генеалогические выводы - туфта.

Проведено большое исследование. Но некоторые важные вопросы не исследованы.
А кто говорит, что исследования закончены? Пока получены пусть и важные характеристики метода, но за бортом осталось много вопросов, и ими надо заниматься, к чему мы сейчас и приступили.

Но неужели Вы думаете, что по парам отец-сын можно с 10% погрешностью определить интенсивности? На медленных маркерах может обнаружится одна или две мутации на все пары отец-сын, или ни одной. Разница в разы.
А вот здесь все предельно просто. Есть статистика по каждому маркеру, есть максимально правдоподобная несмещенная оценка частоты мутаций, которая по-сути всего лишь отношение количества мутаций к общему количеству пар "отец-сын" (здесь тупо биномиальное распределение!). Как вычисляются доверительные интервалы для биномиального распределения, известно, и опубликовано тыщу раз.


3. Могут быть филогенические ошибки, меняющие выборочные пары. Их влияние также не исследовано.
А вот это крайне противный вопрос, который действительно требует исследования! Но поднять и решить эту проблему очень тяжело. Я уже прикидывал, какой объем моделирования и последующего анализа нужно для этого провести, и чуть было не впал в тяжелую депрессию (только 100 грамм коньяка привели меня в чувство ;D).

Оффлайн Nimissin

  • Сообщений: 2375
  • Рейтинг +750/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Уважаемый Alexander. Перенес Ваше сообщение с другой ветки. И размещаю свои комментарии.


В качестве реакции на новый номер.
Поздравляю сообщество с очередным весьма насыщенным и разнообразным номером журнала. Несомненную ценность ему придаёт в первую очередь серия статей С. Каржавина и Д. Адамова по оценкам TMRCA.


Спасибо.


Кроме первой статьи несколько выпадающей из ряда, остальные расположены весьма логично.

Не соглашусь. У нас с Сергеем есть и другие мысли, которые еще не воплотились в статьи. А первая статья Сергея, полагаю, является начальной, от которой мы и пляшем.


 Читаешь про понятия возраста («Оценка возраста родовой популяции»), думаешь, а где же собственно про оценку? Тут же следующая статья как раз об этом (метод выборочных пар). Думаешь, нужно бы сравнить методы. Тут же следующая статья – сравнение МП- и АSD-методов. Мало что понимаешь и думаешь, как бы это понять на практике. Пожалуйста, расчеты и сравнение 5 методов по цыганам. Такой финал серии очень удачен.
Но кое-чего осталось непонятым: похоже, что с цыганами не опробован метод выборочных пар, заявленный, как максимально правдоподобный. Ещё не ясно, откуда в выводах появилось TMRCA=970+/-260 лет (в таблицах фигурировали другие величины)
.

Апробирование метода выборочных пар на выборке европейских цыган у нас в планах. Есть сомнение, основанное на мнении наших форумчан, в том, что 17 маркеров для построения надежного филогенетического дерева - маловато. Кроме того, надо признать нашу безграмотность в части филогении. А предложений о сотрудничестве в этой части мы не получали.

TMRCA=970 лет - это один из ключевых моментов статьи. Даже 17 маркеров не позволяют правильно рассчитать TMRCA из-за несовпадения среднего значения оценки и наиболее вероятного значения оценки. К сожалению, все сделанные ранее расчеты по выборкам из 6, 9, 12 маркеров имеют огромные погрешности, большинство из них недооценивают истинный возраст. Все это и изложено в наших статьях про возраст родовой популяции и возраст генеалогии европейских цыган.


Самое главное, из-за чего проделана столь сложная работа? Все 5 методов дали приблизительно одинаковые средние значения. Разница заметна в погрешностях, но ведь они не главное. Причина этого указана – в выборках практически отсутствовало популяционное смещение. Тем не менее, хотелось бы всё-таки взглянуть на возможно большие возможные различия. К чему может привести неверно выбранный метод?

Мы осознавали, что все предыдущие статьи, мягко говоря, имеют ярко выраженный математический акцент, который не всеми форумчанами воспринимается на слух  :). Поэтому и постарались на примере цыган Н1а более доходчиво изложить основные мысли. Я рекомендую пользоваться этой статьей при производстве собственных расчетов как справочное пособие. Все формулы, все разъяснения там есть. А работа действительно проделана сложная.


Еще один момент, на который хотел обратить внимание. В статье по возрасту цыган Н1а показано, что погрешность оценки возраста считается просто - как среднеквадратичное отклонение по средним значениям мутаций на маркер. Действительно просто - чем больше маркеров, тем меньше в среднем погрешность.

Оффлайн Alexander

  • Сообщений: 650
  • Рейтинг +73/-1
  • Y-ДНК: J2b
Апробирование метода выборочных пар на выборке европейских цыган у нас в планах. Есть сомнение, основанное на мнении наших форумчан, в том, что 17 маркеров для построения надежного филогенетического дерева - маловато. Кроме того, надо признать нашу безграмотность в части филогении. А предложений о сотрудничестве в этой части мы не получали.
Спасибо за разъяснения, уважаемый  Nimissin.
     Относительно 17 маркеров - это я уже убедился, хотя построить некое древо можно. Но надёжного дерева у меня, например, пока не получалось и на 67 маркерах. Напрягает тот факт, что при использовании различных алгоритмов (программ), структура дерева меняется и сильно. Наверное, качество дерева зависит не сколько от маркеров, сколько от мастерства "садовника". Таковых на форуме пересчитать по пальцам...
     Может быть вам стоит попробовать, пусть и на ненадёжном дереве? А по результату как-то оценить степень этой надёжности.

Оффлайн Nimissin

  • Сообщений: 2375
  • Рейтинг +750/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
     Относительно 17 маркеров - это я уже убедился, хотя построить некое древо можно. Но надёжного дерева у меня, например, пока не получалось и на 67 маркерах. Напрягает тот факт, что при использовании различных алгоритмов (программ), структура дерева меняется и сильно. Наверное, качество дерева зависит не сколько от маркеров, сколько от мастерства "садовника". Таковых на форуме пересчитать по пальцам...
     Может быть вам стоит попробовать, пусть и на ненадёжном дереве? А по результату как-то оценить степень этой надёжности.
Когда-нибудь до этого тоже доберемся. С другой стороны, в статье есть все 111 17-маркерных галпотипов. Можете сами попробовать.

Оффлайн Каржавин

  • ...
  • Сообщений: 1806
  • Рейтинг +144/-2
А почему не берете в расчет первый номер за 2011 год?  ???

Ваши с Адамовым статьи игнорируются сознательно, поскольку таят потенциальную опасность для многолетних фантазий.
Эта опасность из потенциальной становится потихоньку реальной. Мы с Дмитрием продолжаем копать в этом направлении, и уже есть конкретные результаты, а не только теоретические изыскания. Сейчас материалы в стадии оформления.
- Удалось таки срастить процедуры оценки TMRCA дисперсионными методами и филогению.
- Сейчас уже не вдвоем, а втроем ведем работу по калибровке частоты (скоростей) мутаций. Здесь есть еще ряд весьма серьезных вопросов, которые на Родстве, по уверению ув. Клесова в его полемике с Nimissin'ом, давно понятны и уже не подлежат дискуссии.
Я "Вестник РА-ДНК" регулярно читаю, но датировки и выводы, опирающиеся на них, уже более года пропускаю. Честно говоря, когда я вижу, сколько нужно будет пересчитывать, дурно становится.
« Последнее редактирование: 20 Июль 2011, 17:50:50 от Каржавин »

Оффлайн VVRАвтор темы

  • ...
  • Сообщений: 2462
  • Страна: ua
  • Рейтинг +616/-0
  • Y-ДНК: o.R1a1a1b1a2a1a1a1e~-YP569,YP1260+;м.R1a1a1b1a1a1a2~-L260,YP1337+
  • мтДНК: K1c1h
А кто третий, если не секрет?

Оффлайн Asmat headhunter

  • Биохимическая субстанция
  • Сообщений: 12471
  • Страна: id
  • Рейтинг +824/-34
  • И того казака те тунгусы пальмами тут искололи
Здесь есть еще ряд весьма серьезных вопросов, которые на Родстве, по уверению ув. Клесова в его полемике с Nimissin'ом, давно понятны и уже не подлежат дискуссии.

Где-нить предварительно подытожены все ошибки Клёсова в датировках?

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.