АвторТема: Построение дендограмм (графиков, схем, деревьев) гаплогруппы  (Прочитано 54237 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Alexander

  • Сообщений: 650
  • Рейтинг +73/-1
  • Y-ДНК: J2b
...правильно свести воедино эти поддеревья без снипования нельзя, даже если взять (например) только R1a: мы получим набор кластеров R1a которые свяжутся друг с другом совершенно случайным образом.
Поясните, пожалуйста. Ведь при сниповании мы и получим R1a (снипы в лаборатории будут делать на глубину предиктора). Или Вы имеете в виду более глубокое снипование? Для чего же тогда Филип или, пусть, Мурка, если всё равно нужно дожидаться снипа?

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Для чего же тогда Филип или, пусть, Мурка, если всё равно нужно дожидаться снипа?
Простая аналогия.
Предсказание погоды.
Допустим, надо сделать краткосрочный прогноз.
Сторож Митрич замечает: "Что-то воробьи в пыли расчирикались. Быть дождю."
Баба Куля со страдальческим лицом трёт сердце и говорит: "Ой как разнылось. Видать к дождю."
Резвый пионэр Павлик, скребя ногтём по настенному барометру, бодро рапортует: "Скоро дождь пойдет!"
В гидрометцентре, получая кучу данных с тысяч метеостанций и потаращив глаза на динамику космических снимков, шлют депешу на телевидение: "Вероятность осадков 80%."

Все молодцы. Все угадали. 
По сути это напоминает работу на ближних генеалогических дистанциях.

А теперь представьте, что задача заключается в том, чтобы предсказать погоду на 1 мая 2010 года.

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Здесь важен только один параметр: сколько поколений было до последнего снипа. Несколько тысяч лет эволюции запутывают картину настолько что по 17 миросателлитам ее не распутать. Представьте ситуацию когда во всех представленных ветвях (истинных ветвях, структура дерева нам неизвестна но она-то существует) за последнюю тысячу лет обновились значения всех маркеров. При этом у каждого засвидетельствованного гаплотипа имеются значительные совпадения с предковым гаплотипом, НО: у одного - по одним маркерам у другого - по другим. И в целом этот ребус не допускает однозначной реконструкции, напротив мы получаем миллионы вариантов дерева которые значительно отличаются друг от друга, и нет никакого способа предпочесть одно дерево другому, все они одинаково правдоподобны. А теперь представьте что в каждой ветви каждую тысячу лет мутировал какой-нибудь уникальный снип. В этом случае можно получить практически однозначное древо снипов и оно будет структурировать картину, а микросателлиты будут дополнять ее во "временных промежутках" между мутациями снипов.

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
А теперь представьте, что задача заключается в том, чтобы предсказать погоду на 1 мая 2010 года.

проще предсказать кто будет президент :)

Оффлайн Alexander

  • Сообщений: 650
  • Рейтинг +73/-1
  • Y-ДНК: J2b
Замечание по представлению результатов. Не могли бы Вы, пожалуйста, конечные картинки, выкладываемые в форум делать шириной 600-800. Получается не очень мелко. И не очень крупно. С одной стороны всё читаемо. А с другой не нужно скролить.
Могу. Просто не знал, как принято, показалось, что первая картинка - великовата.
Посмотрите соседнюю ветку (ссылка). Пытаемся разобраться, как размеры выборки влияют на топологию референтной группы.
Посмотрел, мало, что понял, но по общему впечатлению - за перебранкой теряется смысл дискуссии. Кому-то одному нужно набрать воздуха и не реагировать. Хотя, конечно, не мне советовать...

Оффлайн mouglley

  • ...
  • Сообщений: 7105
  • Страна: hr
  • Рейтинг +434/-7
  • Я знаю, что познаю всё.
    • Записки Маугли
  • Y-ДНК: N1c1-L1025
  • мтДНК: J1c3
А может быть Мурка сведёт через дерево Y-хромосом? Увы пока я не вижу даже откуда к ней подступиться... Где бы внятную (пошаговую) инструкцию почитать?
Единственное, что даже Мурка пытается сделать - разделить 17 маркеров по старым гаплогруппам (возрастом более 5000 лет). Ветки моложе невозможно взять:

Оффлайн Farroukh

  • Maternal Y-DNA: R1b-BY124371
  • ...
  • Сообщений: 17097
  • Страна: az
  • Рейтинг +5908/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Вопрос по MEGA. Там в опциях есть возможность указывать Branch Lenght (длина ветви). Цифры, которые при этом выдаются - это что? Поколения? Годы? Десятилетия? В хэлпе лишь сказано о самой такой возможности, но в чём мерить - в попугаях или слонах - не говорится...

Оффлайн Alexander

  • Сообщений: 650
  • Рейтинг +73/-1
  • Y-ДНК: J2b
Вопрос по MEGA. Там в опциях есть возможность указывать Branch Lenght (длина ветви). Цифры, которые при этом выдаются - это что? Поколения? Годы? Десятилетия? В хэлпе лишь сказано о самой такой возможности, но в чём мерить - в попугаях или слонах - не говорится...
Скорее всего - годы, так как есть знаки после целого+линейная шкала.

Далее For Mich Glitch.
Просмотрел родственные гаплотипы семёрки R1a в базах ydna.ru и ysearch.org. Первая - довольно бедная, нашел несколько приближенцев, но все они фигурируют в "однофамильцах" и у меня были учтены. Во второй - похоже, можно искать только совпаденцев и +-1 пошаговиков. Не выскочило ничего. Но благо на форуме Э.В.Гарин сделал табличку FamilyTreeDNA xls-файлом на 540 гаплотипов R1a. В ней искать оказалось просто. Совпаденцев не было, но 1-3 пошаговиков достаточно.
Привожу кластеры (и исходные .txt) для SX8127, SF5955 и показалось, довольно удачный - для SF1845. Красным отмечены пошаговики, синим  2-шаговики, зелёным 3-шаговики.
Первые двое - остались оторванными от своих зарубежных коллег. Зато 1845, кажется нашёл себе пару - N13715 пошаговика. Так как в этом кластере есть ещё двое пошаговиков для 1845, то задался вопросом, почему они не в общей вилке? К объяснению можно посмотреть вложенный эксель-файл выборки. Там отмечены расхождения по маркерам и скорости мутаций маркеров. DYS458 вроде как довольно быстрый, наверное поэтому N13715 попал в пару. DYS439 чуть быстрее, чем DYS390. Но почему они так разветвились уже не очень понятно. дальше анализировать не представляется возможным, впечатление, что Phylip строит ветки по одному ему известным правилам.
Попробовал объединить 64 однофамильца+30 приближенцев ftdna, но утилита считать отказалась, видать комп нужен помощнее...
Прим. Для поисков в ydna и ftdna уменьшал значение DYS H4 на 1 единицу. А для объединённого дерева брал 16 маркеров, так как не нашёл DYS635 в таблице Гарина.
Вывод: по-видимому, нужно дождаться окончания проекта и получить полную картину своих R1a (другие субклады рассеялись по 1-2 человека). После чего повторить поиск.
Ещё поправка: во втором кластере (для 5955) нет 1-шаговиков, красным отмечены 2-шаговики, зелёным - пара 3-шаговиков.

Оффлайн CenturionАвтор темы

  • 100% Earth (Solar System) genofond
  • Администратор
  • *****
  • Сообщений: 9548
  • Страна: ru
  • Рейтинг +571/-2
Цитировать
Просмотрел родственные гаплотипы семёрки R1a в базах ydna.ru и ysearch.org. Первая - довольно бедная
Что вы сравниваете. Второй уже 9 лет. А первой еще несколько месяцев фактически. Но чтобы она стала как вторая нужно туда дабавлять новые гаплотипы, это же очевидно, тогда она станет богатой.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Вопрос по MEGA. Там в опциях есть возможность указывать Branch Lenght (длина ветви). Цифры, которые при этом выдаются - это что? Поколения? Годы? Десятилетия? В хэлпе лишь сказано о самой такой возможности, но в чём мерить - в попугаях или слонах - не говорится...
Скорее всего - годы, так как есть знаки после целого+линейная шкала.
Указывается в зависимости от исходных данных.
А их вы выбираете например тут:

Оффлайн Alexander

  • Сообщений: 650
  • Рейтинг +73/-1
  • Y-ДНК: J2b
Всё-таки получил совместный "однофамильцев-ftdna" кластер из 94 гаплотипов. Моя семёрка помечена красным. Видно, что у SX8127 сохранилась пара SD2834Шмаков. Зато у SF1845 появилась одношаговая иностанная пара N13715 (с предком Pruss-Germ-Pol).

Оффлайн Alexander

  • Сообщений: 650
  • Рейтинг +73/-1
  • Y-ДНК: J2b
Попарные разницы наверняка превышают значение полученное для группы. Исходя из определения медианы, в пределе 50% попарных разниц меньше полученного значения и 50% больше.
Такая же ситуация может быть и в группах.
Отвечу на другие вопросы и вернемся к физическому смыслу этого казалось бы парадокса
Уважаемый Mich Glitch, вы обещали растолковать физический смысл парадокса...

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Александр, посмотрите соседнюю ветку (начиная отсюда).
Стараясь воздерживаться от перебранок и взаимных претензий, пытаемся оценить насколько достоверны построения вообще в зависимости от количества рассматриваемых маркеров, генетической дистанции и количества сэмплов.

Пока интуитивно, не имея возможность ограничить среднюю генетическую дистанцию (она определяется данными по референтной группе - в Вашем случае, семерка однофамильцев), двигаемся по пути увеличения рассматриваемых гаплотипов. Надеясь при этом. что топология будет отражаться вернее.
Другой очевидный путь - увеличение рассматриваемых маркеров гаплотипа, по понятным причинам, тоже отбрасываем.

Я, надеюсь, Вы теперь пришли к пониманию того факта, что построения не отражают единственности получаемого решения. Это, увы, не две эвклидовы точки, через которые можно провести только две прямые.
Сия простая вещь понятна теперь всем. Некоторые, правда, поняли её много позже других и упорно настаивали на корректировки истории согласно своих калькуляций вплоть до самого последнего времени.

Но пусть получаемая топология не единственная, получить наиболее вероятную - вполне по силам. В процитированной выше ветке мы и пытаемся количественно оценить достоверность своих выкладок.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Попарные разницы наверняка превышают значение полученное для группы. Исходя из определения медианы, в пределе 50% попарных разниц меньше полученного значения и 50% больше.
Такая же ситуация может быть и в группах.
Отвечу на другие вопросы и вернемся к физическому смыслу этого казалось бы парадокса
Уважаемый Mich Glitch, вы обещали растолковать физический смысл парадокса...
Я думал Вы уже догадались.
Поясняю самы простым примером.
Допустим мы имеем две разнесенные точки А и Б.
Затем мы находим гипотетическую точку С, лежащую посередине. Как Вы понимаете, этих точек при одинаковой сумме расстояний до А и Б может быть множество. Даже если использовать принцип кратчайшего расстояние.
Так вот точка С, может условно соответствовать предковому гаплотипу.
Расстояние между точками А и Б больше, чем среднее расстояние между А и С, и Б и С.

Аналогия не вполне чистая. Но представьте что речь идёт не о двух точках, а о нескольких. И не на плоскости, а в пространстве.

Другой аспект - вероятностный. Имеем какое-то среднее значение и выбросы. (Любимый пример - лотерея. Средняя доходность вложения 0.75 доллара на каждый вложенный доллар, но кто-то имеет 10, 50, 100, и даже десятки миллионов долларов.)

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Выполняя филогенетическое построение, мы принимаем принцип поиска наиболее близкого общего предка для всей группы. (Это одно из многих допущений.)

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.