АвторТема: Построение дерева. По модалу, по постороннему или по средней точке.  (Прочитано 3520 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн VVRАвтор темы

  • ...
  • Сообщений: 2456
  • Страна: ua
  • Рейтинг +618/-0
  • Y-ДНК: o.R1a1a1b1a2a1a1a1e~-YP569,YP1260+;м.R1a1a1b1a1a1a2~-L260,YP1337+
  • мтДНК: K1c1h
Использовать модал при построениях не совсем правильно, вернее совсем не правильно. Здесь мы упираемся в недостаток репрезентативноности. Некоторые семейные проекты, по причине бОльшего числа протестированных, перетягивают модал на себя. Ради эксперимента, попробуйте поменять хоть одно значение СТР в модале, и посмотрите что из этого выйдет на графе.
В этом случае лучше брать аутгрупп гаплотип.
Совершенно с Вами не согласен.
Озвученная Вами проблема характерна не только для построения по модалу, но и для всех прочих видов построений.
Точно также выборкозависимое построение и по среднекй точке, и по аутгрупп гаплотипу.
Наиболее методически верным является построение по средней точке. Но оно требует подготовки для восприятия и занимает больше времени на отработку (при большом количестве гаплотипов - это ощутимо).
Модал субклада в идеале (часто нереализуемом даже теоретически) стремится к предковому гаплотипу. Да, и интуитивно понятнее (особенно для новичков).

*** По поводу замены одного значения. Человек опытный понимает, что имеет место многовариантность построений. При сотне вариантов вероятностный разброс не велик. Ещё сотни возможностей просто не озвучены.
Иными словами, что при попарных сравнениях имеем огромный разброс значений. Что при филогенетическом построении. Какая-то веточка (набор гаплотипов) повторилась тройку-пяток раз, вот уже и говорим об устойчивом кластере. 
Ну, а для новичка можно взять первый предложенный вариант, присовокупив, а возможно всё было вот так.   

Резюмирую: построение по модалу (особенно по модалу субклада) - можно сказать, самый распространённый и вполне оправданный метод построений.
Михаил, а можно кратенько про метод построения по средней точке. В чём физический смысл(или генетический смысл). Что-то я не помню, чтобы он обсуждался.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Михаил, а можно кратенько про метод построения по средней точке. В чём физический смысл(или генетический смысл). Что-то я не помню, чтобы он обсуждался.
Если совсем кратенько, то средняя точка, как следует из названия, эта такая точка (точнее гаплотип), который ближе ко всем гаплотипам выборки.
В том, что простой модал и средняя точка не совпадают (вернее совпадают, но очень редко) проще всего убедиться, сделав построения под Муркой с мид пойнт и с укоренением на модал.

Ещё немного в тему.
Чем плохо построение по аутгрупп гаплотипу?

Представим себе построение под Нетворком, или с мид пойнт под Муркой. Сопоставим его с транспортной схемой большого мегаполиса.

Нам, как генеалогам, хотелось бы видеть увязку с временной осью. То есть от предкового гаплотипа сползают вниз потомковые ветви. (Ну, или наоборот, при обратной ориентации.)
Предположим, что трансортная схема большого города создавалась поэтапно и непрерывно. От каждой существующей станции в том или ином направлении пристраивалась новая. И мы хотим именно первую созданную станцию этого гипотетического метро расположить во главе нашего построения.
Использование же аутгрупп гаплотипа соответствует тому, что Вы вскочили в произвольно выбранную станцию Вашего транспортного узла. Разбиение на кластеры получится не хуже (но и не лучше!!!) чем по другим методам (средняя точка, или модал), но ни о каком временном соответствии (в смысле направления развития) говорить, конечно не приходится.

ИМХО: если не охота заморачиваться на среднюю точку (на практике преимущества мизерны - всё та же расплывчатость и многозначность, а времени тратится больше), уж, лучше с модалами помудрить. Простой модал выборки, модал субклада, модал гаплогруппы. Была даже озвучена идея модала всех протестированных.  :o
Если есть какая-то длинная худосочная ветвь, то что по модалу, что по средней точке, что по аутгрупп гаплотипу - результат всё равно будет двусмысленный (многосмысленный).
А если выборка гомогенная, да с небольшими ген. дистанциями, то как ни строй - всё равно получится красиво:)

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Вот хорошая аналогия средней точки - географический центр тяжести.
Географический центр тяжести, скажем, для страны - это такая точка, сумма расстояний от которой до всех точек страны минимальна.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Жаль книжку по филогенетическими построениям уже сдал в университетскую библиотечку.   :-X
Возможно формальное объяснение специалистов было бы более понятным (пусть и на английском языке). 

Оффлайн VVRАвтор темы

  • ...
  • Сообщений: 2456
  • Страна: ua
  • Рейтинг +618/-0
  • Y-ДНК: o.R1a1a1b1a2a1a1a1e~-YP569,YP1260+;м.R1a1a1b1a1a1a2~-L260,YP1337+
  • мтДНК: K1c1h
Думаю, что понял. Насколько помню(давненько я не брал в руки построение деревьев), Нетворк по умолчанию строит сеть от средней точки. Но к гаплотипам выборки можно добавить и модал, и постороннего(outgroup), и оба эти гаплотипа. Модал бывает смещён от этой средней точки.  И тогда разворотом линий сети можно сделать картинку как бы "от предполагаемого предка".
Как я понимаю, в идеале(которого. как правило, не бывает) модал и средняя точка должны совпадать, а филогенический путь по сети от постороннего ко всем(!) гт выборки должен проходить через эту же точку, которая и является предполагаемым предком.
На мой взгляд, все эти три способа имеют свои недостатки.
1)По средней точке.
Здесь искажения возможны из-за многошаговых мутаций, многошаговых реклохов, которые не так просто учесть и в ручном режиме. А тем более их не может учесть ни одна программа, в т.ч. и Мурка, для которой это серьёзная проблема.
Плюс на небольших выборках иногда могут вылезти какие-то особенности в отклонении количества мутаций от среднего. (На большой выборке это впишется в статистику распределения вероятностей.)
Плюс, возможно, могут повлиять ненаблюдаемые мутации, неучтённые программой(небольшую часть таких мутаций филогения может выявить)
2) По модалу.
Те проблемы, о которых упомянул выше Семаргл, безусловно могут быть. Поэтому часто необходима корректировка модала. Есть способ расчёта модала, предложенный в статье Адамова и Каржавина(условно можно назвать средневзвешенное арифметическое), который позволяет получить модал, максимально вероятно приближенный к предковому. Каржавин даже утверждал, что это и есть предковый, но я и тогда с ним спорил и сейчас не согласен. 100% достоверный предковый никаким способом получить невозможно. Кроме того, для этого способа нужно знать заранее, хотя бы в общих чертах, филогению выборки. Т.е. построить или прикинуть(но лучше построить) дерево, затем посчитать модал, затем по нему строить дерево.
Иногда сама программа подсказывает необходимость коррекции модала. Возьмём пример Михаила: http://forum.molgen.org/index.php/topic,34.msg185914.html#msg185914 Здесь пограмма подсказывает, что в модале маркер DYS576 должен иметь значение 18, а не 19.Возможно, там и другая какая-то коррекция необходима, но это уже надо глубже анализировать.
3) По постороннему.
Для некоторых выборок могут быть проблемы с выбором постороннего. Посторонний может быть гомоплазно ближе к некоторым гаплотипам(ветвям) дерева. Это безусловно исказит дерево. Хорошо, если это очевидно. Можно просто подобрать другой посторонний, хотя не для всех выборок это просто. Если же это неявно, искажение может быть не замечено.
Итак, Семаргл за метод по постороннему, Mich Glitch считает наиболее методически верным метод по средней точке, хотя и не против модала.
Я считаю, что все методы имеют свои недостатки, которые надо учитывать, но предпочитаю корректируемый модал.Если позволяет время, можно построить всеми тремя способами, проанализировать расхождения и выбрать наиболее оптимальный вариант.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Мне пока кажутся преисполненными наибольшего смысла построения с укоренением на исследуемый гаплотип. (Осмысленными чисто в генеалогическом плане.)
Неплохо позволяют оценить ближайшее окружение.

*** Осталось только перевернуть построение (где-то проскакивала информация, о том как это сделать). С тем, чтобы анализируемый гаплотип был внизу.

:)

Оффлайн VVRАвтор темы

  • ...
  • Сообщений: 2456
  • Страна: ua
  • Рейтинг +618/-0
  • Y-ДНК: o.R1a1a1b1a2a1a1a1e~-YP569,YP1260+;м.R1a1a1b1a1a1a2~-L260,YP1337+
  • мтДНК: K1c1h
Мне пока кажутся преисполненными наибольшего смысла построения с укоренением на исследуемый гаплотип. (Осмысленными чисто в генеалогическом плане.)
Неплохо позволяют оценить ближайшее окружение.

*** Осталось только перевернуть построение (где-то проскакивала информация, о том как это сделать). С тем, чтобы анализируемый гаплотип был внизу.

:)
Думаю, что оценить ближайшее окружение почти с тем же успехом, но намного быстрее, можно поиском совпаденцев по базе Семаргла. В некоторых случаях такое дерево наверное покажет ближайших филогенически, но насколько оно будет достоверно. Не уверен.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Так в том то и дело, что люди с минимальными генетическими дистанциями не обязательно являются самым ближним окружением. (Пресловутые листочки на дереве и две деревни на разных берегах реки.)
Если бы степень близости определялась только генетической дистанцией, то всё было бы очень просто.

:)

Оффлайн VVRАвтор темы

  • ...
  • Сообщений: 2456
  • Страна: ua
  • Рейтинг +618/-0
  • Y-ДНК: o.R1a1a1b1a2a1a1a1e~-YP569,YP1260+;м.R1a1a1b1a1a1a2~-L260,YP1337+
  • мтДНК: K1c1h
Так в том то и дело, что люди с минимальными генетическими дистанциями не обязательно являются самым ближним окружением. (Пресловутые листочки на дереве и две деревни на разных берегах реки.)
Если бы степень близости определялась только генетической дистанцией, то всё было бы очень просто.

:)
Так в том то и дело. Я сомневаюсь, что построение от исследуемого гаплотипа всегда, или хотя бы в большинстве случаев, даст адекватную филогению, а не просто соединит наш гт с ближайшими по ГД.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Я сомневаюсь, что построение от исследуемого гаплотипа всегда, или хотя бы в большинстве случаев, даст адекватную филогению, а не просто соединит наш гт с ближайшими по ГД.
Не соединит.
:)

Ближайший гаплотип выделен цветом.




Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Вот ещё бы перевернуть картинку. Так, чтобы анализируемый гаплотип внизу был.   ::)

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Вот ещё бы перевернуть картинку. Так, чтобы анализируемый гаплотип внизу был.   ::)
Спасибо mouglley - подсказал.

:)


Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Кстати, если использовать опа! Гангнам стайл Нетворк стайл, т.е., совсем без всяких укоренений, то и тогда ближайшее окружение - то же самое. И отнюдь не с самыми короткими ГД:


Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
В плане правдоподобности ВБОПов, безусловный чемпион - построение по средней точкe. (Правда, базируется оценка правдоподобия на каких-то интуитивно-субъективных ощущениях.  :-X )
Группа приближенцев всё та же.  :)


Оффлайн VVRАвтор темы

  • ...
  • Сообщений: 2456
  • Страна: ua
  • Рейтинг +618/-0
  • Y-ДНК: o.R1a1a1b1a2a1a1a1e~-YP569,YP1260+;м.R1a1a1b1a1a1a2~-L260,YP1337+
  • мтДНК: K1c1h
Логично. В выборке есть филогенически устойчивые группы гт. Программа выбирая, кратчайшие пути, будет одинаковым образом отображать эти группы, независимо от метода построения дерева. Сочетание этих групп на дереве может несколько меняться.  Если интересующий гт попадает в такую группу, хорошо. А если его окружение неустойчиво? При разных способах будет меняться и окружение. Тогда найти оптимальный вариант окружения становится проблемой.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.