АвторТема: Построение дендограмм (графиков, схем, деревьев) гаплогруппы  (Прочитано 54510 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн CenturionАвтор темы

  • 100% Earth (Solar System) genofond
  • Администратор
  • *****
  • Сообщений: 9548
  • Страна: ru
  • Рейтинг +571/-2
Цитировать
И ещё - откройте секрет, как всё-таки совладать с (Y-Utility: Y-DNA Comparison Utility, Ysearch Mode) при 17-маркерных гаплотипах? Я ведь просто воспользовался готовым Вашим результатом...
Никакого секрета нет. Отключаем Enable до локуса, который последний в вашей панели. И все.

Оффлайн Alexander

  • Сообщений: 650
  • Рейтинг +73/-1
  • Y-ДНК: J2b
Никакого секрета нет. Отключаем Enable до локуса, который последний в вашей панели. И все.
Оказывается секрет всё же есть. Я набил гаплотипы прямо в окошке "Past" - всё получилось. Но вид вставленного из блокнота и набитого прямо в окне был 1:1, в чём различие пока непонятно, все пропуски и т.д. были соблюдены. Ну, да Бог с ним. Главное можно делать дендрограмму. В нашей семёрке R1a1 - родственников, конечно, нет, если не считать одну пару с разницей в 2 шага и 1260 лет до предка (при 95%) - см. вложение.
Добавление: секрет - в правильных пробелах. Чтобы с ними не возиться, лучше скопировать таблицу гаплотипов в Экселе и сразу вставить в окно утилиты (без промежуточных блокнотов).
« Последнее редактирование: 17 Февраль 2010, 11:38:58 от Alexander »

Оффлайн Alexander

  • Сообщений: 650
  • Рейтинг +73/-1
  • Y-ДНК: J2b
Провозился с дендрограммой для семёрки R1a1 из нашей группы (17-маркерные гаплотипы прикреплены) всё строится, но концы не сходятся, чувствую, сам не справлюсь, нужна помощь.
Второе прикрепление - дерево и таблица времён до предка (при 95% вероятности) на одном листе рядом.
Во-первых, времена в таблице не соответствуют суммам времен по таблице из дерева (кроме двух ближайших соседей: Самара-Желдор=1260 лет). А вот, Самара-Москва по таблице 2370 лет, а по суммам отрезков ветвей 601+461+1591=2653 года. И такое разночтение почти везде.
Во-вторых, по виду дерева, ближайшие соседи: Самара-Желдор, далее к этой ветке подходит Москва, а уже дальше - Казахстан.  Но по отрезкам ветвей Казахстан ближе, чем Москва, скажем, к Самаре (Самара-Казахстан по отрезкам 601+461+222+404=1688 лет).
Вопросы:
1)должна ли таблица Time to most recent common ancessor соответствовать таблице под деревом в программе Phylip?
2) Должно ли дерево Phylip ответвлять "родственников" по убыванию возрастов до их предка? А если нет, и нумерованные точки имеют лишь расчётный смысл, то какую программу следует освоить, имея в виду наглядность дерева?
Прим. Дерево и таблицу хотелось бы иметь для рассылки комментариев к ДНК-однофамильцам.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Строим вместе
« Ответ #63 : 04 Сентябрь 2009, 21:56:33 »
Итак построение в режиме реального времени.
Взяли Ваши данные из блокнота и влепили в утилиту.
Вот так (см. приложенный файл). Убрал всё лишнее. Доверительную вероятность взял 75%, потому как в приложенном алгоритме (топология + TMRCA) на деле имеем полуторный интервал (оставляю пока за рамками объяснения).

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Получили следующее (см. приложения).

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Копируем даные для филипа и создаем в блокноте infile. Не забываем потом обрезать расширение txt.
Файл перетаскиваем в папку с утилитами.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Кликаем на fitch. Получаем картинку, как внизу.
Жмём Y и ввод.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Вот что получается (первая картинка).
Добавляем хвости .tre к файлу outtree. (Вторая картинка.)
Предполагается, что Mega у Вас уже установлена.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Кликаем на outtree.tre.
Получаем дерево:

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Весь процесс занимает две минуты. У меня в десять раз больше времени ушло на составление отчета.
Посмотрел Вашу подбись, Вы ведь тоже АК?!
Вам и карты в руки. Построите с полторы сотни деревьев и тоже будете требовать, чтобы Вас именовали академиком.
(Как Вы надеюсь поняли, в этих надужных попытках пошутить, старался уесть совсем не Вас, а другого АК.  :))

А теперь главный фокус-покус. Или, как с помощью линейки получить клесовские возраста.

1) Отмерьте прямо по экрану дистанцию от модального гаплотипа до самого дальнего. (У меня 127 миллиметров).
2) Измерьте размеры масштабной шкалы. (У меня 17 мм.)
3) Делим 127 на 17 и умножаем на 500. Получаем 3736 лет.

Без всякого надувания щёчек, я научился за пару минут получать результат, сходный с клесовским, ещё полтора года назад.

Увы, опять на работу бежать.

Позже объясню как с деревьями поиграть, и поупражняться с укоренениями.

Оффлайн Alexander

  • Сообщений: 650
  • Рейтинг +73/-1
  • Y-ДНК: J2b
Делим 127 на 17 и умножаем на 500. Получаем 3736 лет.
Позже объясню как с деревьями поиграть, и поупражняться с укоренениями.
     Странно, но опять (как при расчёте TMRCA) у нас с Вами расхождение по таблице разностей, хотя на этот раз мои исходные верные, проверил. Например, два ближайших соседа (SX8127 и SF5955) у Вас на 3-х разностях, а у меня на 2-х (это верно, можно сравнить по гаплотипам). (Мой результат на 75% прикреплён). Но не в этом суть.
     Моё дерево (строил в Phylip) по структуре не отличается от Вашего в (Mega). Меня не устроило то, что ветви располагаются не в порядке ответвлений (у Вас тоже). Например, по виду обоих деревьев ветка SF1845 ближе к двойке (SX8127 и SF5955), чем, например, SG6312. А по расстояниям до предка - наоборот.
    И второе, меня насторожило, что результат расчёта по линейке (в Phylip - то же самое, только по прилагаемой таблице отрезков) отличается от результатов, записанных в утилитной таблице Time to most recent common ancessor. Вот и у Вас - в расчёте 3735 лет, а по таблице 4440 лет. Если так и должно быть, то и ладно. Буду знать, что в таблицу не смотреть.
     Но вид дерева с "неправильными" ветвями что-то мне не нравится.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Александр, обо всем по порядку.
     Странно, но опять (как при расчёте TMRCA) у нас с Вами расхождение по таблице разностей, хотя на этот раз мои исходные верные, проверил. Например, два ближайших соседа (SX8127 и SF5955) у Вас на 3-х разностях, а у меня на 2-х (это верно, можно сравнить по гаплотипам). (Мой результат на 75% прикреплён). Но не в этом суть.
Для того чтобы таблицы совпадали, как Вы верно заметили надо поубирать галочки. Чтобы не выскакивало сообщение об ошибке. Мне было недосуг. Самое лучшее, чтобы маркеры в гаплотипе совпадали с используемыми утилиткой порядками. Либо ФТДНА, либо Усёрч.

И второе, меня насторожило, что результат расчёта по линейке (в Phylip - то же самое, только по прилагаемой таблице отрезков) отличается от результатов, записанных в утилитной таблице Time to most recent common ancessor. Вот и у Вас - в расчёте 3735 лет, а по таблице 4440 лет. Если так и должно быть, то и ладно. Буду знать, что в таблицу не смотреть.
Данную таблицу из утилиты мы не используем. В ней отражены попарные сравнения для доверительного интервала 75%. А TMRCA на схемке примерно соответствует доверительному интервалу чуть меньше 50%. (Я говорил о том, что надо взять полуторный доверительный интервал в настройках утилиты (50% + 25%).

       Моё дерево (строил в Phylip) по структуре не отличается от Вашего в (Mega). Меня не устроило то, что ветви располагаются не в порядке ответвлений (у Вас тоже). Например, по виду обоих деревьев ветка SF1845 ближе к двойке (SX8127 и SF5955), чем, например, SG6312. А по расстояниям до предка - наоборот.
Не вполне понял про ответвления.
Вы можете взять и построить деревья по отдельным веткам, а можете поупражняться с линеечкой (меряем от самого длиного гаплотипа, ло общей линии, которая и соответсвует общему предку).
Пример: общий предок для группы 1845, 8127, 5955 на времееной шкале расположен ближе, чем общий предок для группы 0667, 5315, 4764.

И ещё, посмотрите кнопочки под Мегой.

Оффлайн Alexander

  • Сообщений: 650
  • Рейтинг +73/-1
  • Y-ДНК: J2b
Не вполне понял про ответвления.
Про ветки на дереве я имел в виду следующее.
Если посмотреть на дерево (на Вашей картинке в Мега), то, по-видимому,  общий предок - это modal. От него идет ствол дерева. Оно разветвляется на 2 большие ветви (4 и 3 гаплотипа). В четвёрке первая (нижняя) ветка - SG6312, затем ветка SF8545, и последняя верхушка - пара веточек SX8127 и SF5955. Эту парочку в лаборатории считают родственниками  - они в 2-х шагах др.от др. и закрашены зелёным фоном. Это понятно.
Но кто к этой паре ближе? По картинке - ближайшая к ним ветка SF1845. А SG6312 - более дальний родственник. На деле же по расчёту - всё наоборот. Ближайший к парочке родственник SG6312. Он ближе и по "разностям" - в 3-х шагах от парочки, и даже тоже закрашен зелёным цветом.
Это напрягает. Зачем рисовать дерево, если оно не даёт наглядности? Если бы поменять местами ветки SF1845 и SG6312 - то всё стало бы на свои места.
То же самое про ветвь из 3-х гаплотипов. В ней "ближайшие родственники" SJ0667 - SZ4764, а SH5315 - подальше. Но по картинке этого не скажешь. Там скобочкой объединены якобы "ближайшие" - SZ4764 И SH5315.

Тут же ещё вопрос по делу. Похоже, что расстояние от модального  до самого дальнего (SH5315?) Вы измеряете от точки первого ветвления (это крайняя левая вертикальная линия).  А не от слова modal? А вот в Phylip даются расстояния между каждыми точками, в том числе есть расстояние от слова modal до точки первого ветвления. Это может "накинуть" ещё 500 лет. И как раз дотянем до 4200 лет, как в расчёте TMRCA?
« Последнее редактирование: 06 Сентябрь 2009, 20:54:32 от Alexander »

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Если посмотреть на дерево (на Вашей картинке в Мега), то, по-видимому,  общий предок - это modal. От него идет ствол дерева. Оно разветвляется на 2 большие ветви (4 и 3 гаплотипа). В четвёрке первая (нижняя) ветка - SG6312, затем ветка SF8545, и последняя верхушка - пара веточек SX8127 и SF5955. Эту парочку в лаборатории считают родственниками  - они в 2-х шагах др.от др. и закрашены зелёным фоном. Это понятно.
Но кто к этой паре ближе? По картинке - ближайшая к ним ветка SF1845. А SG6312 - более дальний родственник. На деле же по расчёту - всё наоборот. Ближайший к парочке родственник SG6312. Он ближе и по "разностям" - в 3-х шагах от парочки, и даже тоже закрашен зелёным цветом.
Это напрягает. Зачем рисовать дерево, если оно не даёт наглядности? Если бы поменять местами ветки SF1845 и SG6312 - то всё стало бы на свои места.
То же самое про ветвь из 3-х гаплотипов. В ней "ближайшие родственники" SJ0667 - SZ4764, а SH5315 - подальше. Но по картинке этого не скажешь. Там скобочкой объединены якобы "ближайшие" - SZ4764 И SH5315.

Ув. Александр

В Phylip при построении дерев используется один из трех дистантно-матричных методов: метод Фитча-Марголиаша, метод ближайщего соседа или метод с использованием группировки. В данном случае применялся метод Ф-М или метод "взвешенных"  минимальных корней. В отличие от метода ближайщего соседа, где в качестве метрики используются та самая матрица генетических расстояний (которые Вы получаете в YUtility) Этот метод удобен для кластеризации "близких" гаплотипов, так как в расчет принимаются линеарные генетические расстояния (дистанции), таким образом, что наиболее близким гаплотипам присваиваются более высокие "веса", тем самым понижается степень неаккуратности расчета измерения дистанций между более удаленными гаплотипами.

Как Вы правильно отметили, расчет ведется в дальном случае от первого гаплотипа, которым в YUtility является условный предковый гаплотип - так называемый модальный гаплотип. Предполагается, что этот модальный гаплотип (или гаплотип с медианными значениями соответсвующих маркеров всех гаплотипов выборки)совпадает с гаплотипом "общего предка", хотя на практике это зачастую не так. Я как то специально проверял эти модальные гаплотипы в Мурке на предмет их совпадения с филогенетическим "мидпойнтом", и в половине случаев гаплотип мидпойнта и модальный гаплотип не совпадали. Далее, я думаю, что причина Вашего конфуза с ветвьями  вызвана тем, что Вы путаете понятие генетической дистанции и генетическое сходство гаплотипов. Дистанция считается в этом случае от модала, в Вашем случае SF1845 ближе к модальному гаплотипу (то есть в нем накопленно меньше мутаций от предкового гаплотипа, и поэтому дистанция меньше), SG6312  - мутаций больше и поэтому он дальше. Это вовсе неисключает вероятность того, что по числу совпадающих маркеров SG6312  ближе к SX8127 и SF5955.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Не вполне понял про ответвления.
Про ветки на дереве я имел в виду следующее.
Если посмотреть на дерево (на Вашей картинке в Мега), то, по-видимому,  общий предок - это modal. От него идет ствол дерева. Оно разветвляется на 2 большие ветви (4 и 3 гаплотипа). В четвёрке первая (нижняя) ветка - SG6312, затем ветка SF8545, и последняя верхушка - пара веточек SX8127 и SF5955. Эту парочку в лаборатории считают родственниками  - они в 2-х шагах др.от др. и закрашены зелёным фоном. Это понятно.
Но кто к этой паре ближе? По картинке - ближайшая к ним ветка SF1845. А SG6312 - более дальний родственник. На деле же по расчёту - всё наоборот. Ближайший к парочке родственник SG6312. Он ближе и по "разностям" - в 3-х шагах от парочки, и даже тоже закрашен зелёным цветом.
Это напрягает. Зачем рисовать дерево, если оно не даёт наглядности? Если бы поменять местами ветки SF1845 и SG6312 - то всё стало бы на свои места.
То же самое про ветвь из 3-х гаплотипов. В ней "ближайшие родственники" SJ0667 - SZ4764, а SH5315 - подальше. Но по картинке этого не скажешь. Там скобочкой объединены якобы "ближайшие" - SZ4764 И SH5315.

Тут же ещё вопрос по делу. Похоже, что расстояние от модального  до самого дальнего (SH5315?) Вы измеряете от точки первого ветвления (это крайняя левая вертикальная линия).  А не от слова modal? А вот в Phylip даются расстояния между каждыми точками, в том числе есть расстояние от слова modal до точки первого ветвления. Это может "накинуть" ещё 500 лет. И как раз дотянем до 4200 лет, как в расчёте TMRCA?
Александр.
Самое главное: топология - отдельно, времена - отдельно.

По поводу модального гаплотипа Вам уже сказал Вадим. По сути, млдальный гаплотип характеризует выборку. Нет абсолютно никакой гарантии того, что он является предковым.

Допустим мы рассматриваем только один маркер. Имеем выборку 1 2 2 3 4 5 6 7. Модальное, т.е. наиболее часто встречающаеся, значение - 2. А теперь представьте, что мы добавили пару гаплотипов со значением маркера 7. Т. е., новая выборка 1 2 2 3 4 5 6 7 7 7. Теперь модальное значение 7.
То есть опять возвращаемся к пережёвыванию мочала о правильном концепте составления выборки.

Теперь наш вариант: работаем по тем данным, что имеем. И оцениваем одновременно весь пул.

Топология позволяет показать родственные ветви. Если Вы покликаете на укоренения в Меге, то получите почти те же самые группы ветвей. Ветвь означает группу более близких родственников. Чем она дальше от левой линии, тем (условно!!!) ближе к нашим дням её предок-прародитель.

Времена же мы считаем по отдельной методе. Пример с линеечкой я привел в качестве курьёза. Для меня абсолютно безразлично, получен ли результат с помощью многостраничных размышлений. Или же можно довольствоваться близким по значению эрзацем. Порядок цифр мне примерно ясен. Также и ясно то, что подтвердить. или опровергнуть достоверность полученных выкладок пока нельзя.

Да и вообще в словосочетании ДНК-генеалогия для меня важнее генеалогия, чем ДНК. Именно генеалогия, а не история, выходящая даже за рамки Истории Древнего мира.

В моём рисунке я вижу три ветви:
1) Отдельно стоящий 6312. Он ближе всех стоит к модальному гаплотипу, который мы с огромными натяжками (особо учитывая мизерность выборки и большие генетические дистанции) считаем предковым.
2) 1845, 8127, 5955. Самая молодая ветвь.
3) 0667, 5315, 4764. Ветвь почти такая же по возрасту, как и 1). И старше чем 2).

Поиграйте с укоренениями в Меге. Характер ветвей может измениться.

Когда сэмплов много, количество рассматриваемыйх маркеров велико, а генетические дистанции незначительны, картина получается очень определенной. Как мы не изменяем укоренения, группы гаплотипов от этого не меняются.
Взяв отдельно такую группу, можно сделать уточняющее построение и (отдельно!) просчет времен.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.