АвторТема: Какая программа лучше всего годится для построения древ?  (Прочитано 13628 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Шад

  • Главный модератор
  • *****
  • Сообщений: 6336
  • Страна: ru
  • Рейтинг +1333/-4
  • Ex oriente lux
  • Y-ДНК: Q-Y2750
  • мтДНК: J1c2z
Провел небольшой анализ работ отечественных поп. генетиков. Как правило, используют Network. Иногда используется PHYLIP для построения древ. Упоминаний о TNT, PAUP, Mega и др. нет. Вопрос: это как-то связано с тем, что наши ученые работают в основном с 17-маркерными гаплотипами Yfiler, а не с 67-маркерными коммерческими? Т.е. потребность в софте ограничена сравнительно короткими гаплотипами? Или просто "страшная сила привычки"?

А что разве у PHYLIP и MEGA есть какие-то ограничения по количеству маркеров? Я вчера, приобщившись тайного знания отсюда (http://forum.molgen.org/index.php/topic,19.0.html), построил свое первое дерево.
Анализировал набор данных гаплотипов Q1b по Y-17 и Y-25. 17 маркеров брал потому, что часть самых интересных (находящихся за пределами ашкеназского кластера) гаплотипов Q1b (из Индии, Пакистана), к сожалению, имеют минимальное число маркеров.
Всё получилось. Правда некоторые ветви при переходе с 17 маркеров на 25 поменяли расположение, но большая часть дерева осталась устойчивой.

Использовал Y-utility (http://www.mymcgee.com/tools/yutility111.html) с последующим формирования файла данных для PHYLIP. В принципе, все достаточно просто (с точки зрения обработки данных). С точки зрения интерпретации пока с выводами подожду - продолжу эксперименты на большем массиве данных...

Оффлайн Шад

  • Главный модератор
  • *****
  • Сообщений: 6336
  • Страна: ru
  • Рейтинг +1333/-4
  • Ex oriente lux
  • Y-ДНК: Q-Y2750
  • мтДНК: J1c2z
Тут в чём ведь всё дело6 я изначально настаивал на 67-маркёрном анализе и глубоком снипе. И уже только для таких гаплотипов имеет смысл что-то считать. Но зачастую на практике такого нет - то гаплотипы короткие, то субклады недоделанные. А новичок начинает делать неверные выводы и толкать атомные теории.

Насчет того, что набор данных должен иметь одинаковое и желательно максимально возможное количество маркеров понятно. Но где наступает искажение при неоднородности данных (если анализируются данные по нескольким субклалам одной гаплогруппы или по нескольким гаплогруппам) и наступает ли оно - не понятно.

Хотелось бы избежать "ошибки новичка", о которой писал уважаемый Farroukh.

Оффлайн wertner

  • ...
  • Сообщений: 1332
  • Страна: ru
  • Рейтинг +321/-0
    • YFull
  • Y-ДНК: E-V13->E-S2972->E-Z16661
  • мтДНК: U4a (xU4a3)
Шад, повторюсь: начинайте использовать TNT. Иначе просто потеряете время на освоение PHYLIP.

Что же касается использования в выборке коротких гаплотипов наряду с длинными, то недавно произошел такой случай.
На дерево E1b1b1a1b-V13, состоящее из более четырехсот 67-маркерных гаплотипов по просьбе Сергея Лутака я добавил один 37-маркерный итальянский гаплотип, близкий к гаплотипу Сергея. Этот 37-маркерный гаплотип сразу же перетащил гаплотип Сергея на другую ветвь. Затем, через некоторое время, итальянец сделал 67 маркеров. При обновлении дерева итальянец остался на той же ветви, а Сергей вернулся на свою старую ветвь.
Дерево E1b1b1a1b-V13 "плотное": достаточно молодой общий предок, много протестированных. На него подействовало даже столь маленькое (0,25% выборки) добавление короткого гаплотипа. В более "разреженных" влияние будет меньше.
Еще один фактор: я дерево делал в своей самописной программе, может быть она такая неустойчивая.

Имхо, самый правильный подход: в качестве основного дерева держать 67-маркерное. И в качестве изучения выборки делать еще дерево с гаплотипами разной длины (TNT позволяет) и анализировать его на появление обособленных ветвей из коротких гаплотипов, но не особо обращать внимание на его разделение ветвей в "плотной" части.

Оффлайн VVR

  • ...
  • Сообщений: 2456
  • Страна: ua
  • Рейтинг +618/-0
  • Y-ДНК: o.R1a1a1b1a2a1a1a1e~-YP569,YP1260+;м.R1a1a1b1a1a1a2~-L260,YP1337+
  • мтДНК: K1c1h
Где-то я слышал, что развитая научная интуиция близка к максимально правдоподобной оценке. Значит, небольшие деревья можно строить и на глазок.
Строить достаточно непросто. А вот сделать филогенетический анализ гаплотипа на основе хорошо знакомого материала, имея определённый опыт, вполне возможно.
Может же шахматист скажем 3-го разряда, пусть неидеально, но вполне адекватно проанализировать позицию в шахматной партии без компьютерной программы.
Уже несколько лет есть суперпрограммы на скоростных суперкомпах, которые могут обыграть чемпиона мира. Но ещё недавно топ-гроссмейстеры играли лучше любой шахматной программы. У гроссмейстеров эвристика лучше.

Оффлайн Nimissin

  • Сообщений: 2403
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Шад, повторюсь: начинайте использовать TNT. Иначе просто потеряете время на освоение PHYLIP.

Уважаемый wertner, насколько я понял, PHYLIP уважаемым Шадом уже освоен.

Оффлайн Шад

  • Главный модератор
  • *****
  • Сообщений: 6336
  • Страна: ru
  • Рейтинг +1333/-4
  • Ex oriente lux
  • Y-ДНК: Q-Y2750
  • мтДНК: J1c2z
Шад, повторюсь: начинайте использовать TNT. Иначе просто потеряете время на освоение PHYLIP.

Уважаемый wertner, насколько я понял, PHYLIP уважаемым Шадом уже освоен.

Меня заочно очень уважают:) Я только осваиваю азы, решил начать с чего попроще...

Оффлайн Nimissin

  • Сообщений: 2403
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
Строить достаточно непросто. А вот сделать филогенетический анализ гаплотипа на основе хорошо знакомого материала, имея определённый опыт, вполне возможно.
Может же шахматист скажем 3-го разряда, пусть неидеально, но вполне адекватно проанализировать позицию в шахматной партии без компьютерной программы.
Уже несколько лет есть суперпрограммы на скоростных суперкомпах, которые могут обыграть чемпиона мира. Но ещё недавно топ-гроссмейстеры играли лучше любой шахматной программы. У гроссмейстеров эвристика лучше.
Уважаемый VVR, согласен с Вами. У нас с Сергеем еще не завершен цикл исследований, но потихоньку приступлю к освоению новой для себя области - построению филогенетических деревьев. Надеюсь, уважаемые форумчане помогут советом. Пока присматриваюсь к Network.

Оффлайн Nimissin

  • Сообщений: 2403
  • Рейтинг +759/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b12a
решил начать с чего попроще...
Как я понял, уважаемый wertner так не считает

Оффлайн wertner

  • ...
  • Сообщений: 1332
  • Страна: ru
  • Рейтинг +321/-0
    • YFull
  • Y-ДНК: E-V13->E-S2972->E-Z16661
  • мтДНК: U4a (xU4a3)
решил начать с чего попроще...
Как я понял, уважаемый wertner так не считает
PHYLIP проще, чем TNT. Но деревья менее достоверные.

Оффлайн Centurion

  • 100% Earth (Solar System) genofond
  • Администратор
  • *****
  • Сообщений: 9548
  • Страна: ru
  • Рейтинг +571/-2
PHYLIP проще, чем TNT. Но деревья менее достоверные.
Зато Филипком пользуется ГУРУ!

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Многие видят матчи, страны и думают что видят мир как он есть...
Кстати, напрасно Вы так.
Напоминает глупость из клёсовского катехизиса. Что-то там про о вреде использования попарных сравнений.

Нужна сравнительная база.

При её достаточной величине, оба метода (условно обозначим их филогенетический и статистический) достаточно хороши.

Если же речь идёт о недостатке данных, то оба метода одинаково плохи.

Поясняю примерами.

Допустим у Вас есть выборка с миру по нитке. В смысле разброса географических регионов и больших попарных генетических дистанций.
Как ни строй, чем ни строй - доверия как топологии, так и рассчитанным на её основе ВБОПам - минимум. Ну, если конечно речь не идёт о закоренелых клёсовцах.

С другой стороны, глупость несусветная, когда кто-то, имея для русского гаплотипа 16-ти шагового приближенца из России и 10-ти шагового из Ирландии, ориентируется именно на последнего.

А вот когда лист, скажем, отстающих не далее чем на 5 шагов, на, к примеру, 67 маркерах подваливает к сотне хотя бы, то уже обычный статистический обсчёт:
а) Достаточно информативен.
б) Достаточно надёжен.

*** Немного не в тему, но из той же оперы.
Если Ваш РелФайндеровский лист зашкаливает за 1000 персон, а в будущем, при возможном снятии ограничений на количество родичей в РФ листе и при значительном (на порядки!) увеличении базы, будет переползать за 3-5 тысяч, то путём статобработки можно будет получить львиную долю фамильных линий даже на российском генеалогическом интервале. (Правильнее сказать, интервале закрепившихся фамилий.)
Т.е., скажем будет у Вас среди родичей по 1-5% Ивановых-Петровых-Сидоровых и др., а количество людей с фамилиями менее 1% составит процентов 25, то именно эти фамилии (те что 1-5 и более процентов) и можно будет полагать фамилиями Ваших предков.

Ну, и уже бубнил не раз, что по матрицам попарных родственных отношений можно будет выстроить уже не филогенетическое, а самое что ни на есть генеалогическое древо.

Оффлайн mouglley

  • ...
  • Сообщений: 7102
  • Страна: hr
  • Рейтинг +434/-7
  • Я знаю, что познаю всё.
    • Записки Маугли
  • Y-ДНК: N1c1-L1025
  • мтДНК: J1c3
Меня заочно очень уважают:) Я только осваиваю азы, решил начать с чего попроще...
Честно, не советую.

PHYLIP не занимается филогенией ни разу.
Программа глухо рассчитывает количество мутаций между гаплотипами.
А в каком маркере это произошло, быстро- или медленномутирующий это маркер программе по барабану.

Скажу за себя - начинал с Network, но упёрся в привязку цвета гаплотипа к географическому региону и причёсывание получаемог рыбацкого невода в понятный вид. Результаты вычислений были достойны.

Потом, благодаря неистощимому терпению уважаемого Valery, освоил его Мурку (от которой отказываться пока не собираюсь).
Всё наглядно - где какая страна, где какой регион, даты мутаций - всё есть.

TNT считает несколько точнее и быстрее (по словам уважаемого Valery). Но результат абсолютно для меня ненагляден.
Мне его трубно анализировать с приязкой по регионам.

Оффлайн Шад

  • Главный модератор
  • *****
  • Сообщений: 6336
  • Страна: ru
  • Рейтинг +1333/-4
  • Ex oriente lux
  • Y-ДНК: Q-Y2750
  • мтДНК: J1c2z
Меня заочно очень уважают:) Я только осваиваю азы, решил начать с чего попроще...
Честно, не советую.

PHYLIP не занимается филогенией ни разу.
Программа глухо рассчитывает количество мутаций между гаплотипами.
А в каком маркере это произошло, быстро- или медленномутирующий это маркер программе по барабану.

Скажу за себя - начинал с Network, но упёрся в привязку цвета гаплотипа к географическому региону и причёсывание получаемог рыбацкого невода в понятный вид. Результаты вычислений были достойны.

Потом, благодаря неистощимому терпению уважаемого Valery, освоил его Мурку (от которой отказываться пока не собираюсь).
Всё наглядно - где какая страна, где какой регион, даты мутаций - всё есть.

TNT считает несколько точнее и быстрее (по словам уважаемого Valery). Но результат абсолютно для меня ненагляден.
Мне его трубно анализировать с приязкой по регионам.

Файл  *.ych data, который формирует Y-Utility подойдет для анализа в Мурке?
Дистрибутив Мурки уже скачал, но освоение очень хочется перенести на следующую неделю:)

Оффлайн mouglley

  • ...
  • Сообщений: 7102
  • Страна: hr
  • Рейтинг +434/-7
  • Я знаю, что познаю всё.
    • Записки Маугли
  • Y-ДНК: N1c1-L1025
  • мтДНК: J1c3
*.ych подходит и для Мурки.
Если возникнут вопросы по этой программе, то лучше задавать из в соответствующем разделе http://forum.molgen.org/index.php/board,91.0.html .

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Меня заочно очень уважают:) Я только осваиваю азы, решил начать с чего попроще...
Честно, не советую.

PHYLIP не занимается филогенией ни разу.
Программа глухо рассчитывает количество мутаций между гаплотипами.
А в каком маркере это произошло, быстро- или медленномутирующий это маркер программе по барабану.


Хотя я и не пользовался программами из пакета Phylip уже года два, все же справедливости ради скажу в защиту Джо Фельзенштейна (автор PHYLIP) что программа дает относительно неплохие результаты при анализе ДНК, белковых сиквенсов , если использовать входящие в пакет утилиты, основные на методах ML (максимального правдоподобия) или парсимонических методах. Это утилиты Dnapars,Dnaml, Proml  и так далее.

В чем же стоить проблема  метода, используемого Клесовым для построения древ Y-гаплотипов? Напомню, что Клесов для анализа топологии дерева использует программы kitsh/fitsh из пакта PHYLIP для визуализации матрицы дистанции между Y-STR гаплотипами (вычисленную в YUtility).

Обе программы используют либо метод Fitch-Margoliash либо метод Least Squares, основаные на анализе попарной дистанции между таксонами (в нашем случае это микросателлитные данные).На выходе получается некая топология дерева, которую Клесов потом визуализирует в программе Мега.

Клесова не учитывает слабые места метода попарных дистанций в применении к микросателлитам, т.е к гаплотипам Y.

Во-первых,  он не учитывает (или просто не знает), что метод попарных дистанций недооценивает расстояние маршрута между таксонами на древе.  Фактически, метод попарных дистанций "срезает углы" дистанций. Здесь хорошая  аналогия с географическим расстоянием: расстояние между двумя городами A и B  по-прямой может быть  100 миль, но на самом деле  человек, идущий из города A в город B из фактически бы обязан пройти 120 миль из-за расположения дорог, местности, остановок в пути и т.д.   Есди попарно сравнивать пару таксонов (гаплотипов в нашем случае), то некоторые изменения признаков (значений маркеров), произошедшие у предковых гаплотипов будет просто невозможно определить (это проблема т.н. возвратных мутаций, о которой на Молгене упоминалось уже многократно).
Хотя эта проблема (возвратных мутаций) и  является общей для всех методов филогенетический оценки расположения гаплотипов по отношения друг к другу,  она  особенно актуальна  для дистанционных методов, потому что для расчета расстояний между каждой парой гаплотипов в выбоке используются только два гаплотипа, в то время как другие методы (парсимонические и ML)  позволяют реконструировать  и учитывать наиболее вероятные "промежуточные звенья" - предковые значения в маркерах гаплотипов.

Еще Клесов не учитывает недостатки таких эвристических методов построения древ в Phylip как метод Neighbour-joining, который не позволяет производить сортировку или отбор наиболее лучших деревьев.

Еще одна ошибка Клесова состоит в том, что он не использует включенные в Phylip эвристики для оценки стабильности получаемых древ (типа jackknife, bootstrap). Кроме того, он не видимо не знает, что в той же Меге на основе одного и того же филипковского файла можно получить сотню, тысячу и даже миллионных альтернативных топологий древ.


Если бы, скажем, я был на месте Клесова и использовал бы PHYLIP для анализа топологии древа (на слэнге Клесова - "выявление ветвей"), то сначала я бы генерировал все возможные в рамках применения метода Fitch-Margoliash топологии деревьев, а затем бы производил оценку надежности методам бутстрэпа (bootstrap). И только затем интепретировал топологию древа в терминах "ветвей гаплогруппы". :)

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.