АвторТема: Построение дендограмм (графиков, схем, деревьев) гаплогруппы  (Прочитано 54241 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн CenturionАвтор темы

  • 100% Earth (Solar System) genofond
  • Администратор
  • *****
  • Сообщений: 9548
  • Страна: ru
  • Рейтинг +571/-2
Один из алгоритмов построения филогенетического древа выглядит следующим образом.


1. Создаем файл данных в Excel
Первый столбец - идентификаторы образцов, все остальные - значения маркеров..

2. Копируем содержание файла (данные) в "Блокнот" или любой иной простейший текстовый редактор.
Удаляем лишние пробелы (должно остаться лишь по одному пробелу между значениями и идентификаторами).
Сохраняем файл в текстовом виде (ANSI, txt)
К примеру, файл данных проекта О3 может выглядеть так (только с 1 пробелом между данными):
18772 13 25 16 11 13 18 11 12 12 14 13 30
82790 11 24 14 10 13 17 11 10 14 12 14 30
77254 12 23 15 10 12 12 11 12 12 12 12 28
46657 12 23 15 10 12 20 11 12 12 12 13 28
80057 12 23 15 10 13 18 11 12 12 12 13 29
N32933 12 25 15 10 12 18 11 12 12 12 13 28
N29639 12 25 15 11 13 21 11 12 13 13 14 29
52465 13 24 15 11 12 16 12 13 13 12 13 28
22754 12 23 14 9 13 19 11 10 12 12 14 28
N40092 12 23 15 10 12 19 11 12 11 13 13 31
N23232 12 23 15 10 13 18 11 12 11 13 13 30
N40402 12 24 15 10 12 19 11 13 12 12 13 29
27280 12 24 15 10 13 17 11 10 13 12 14 28
N13973 12 24 15 10 13 20 11 12 12 13 13 31
N50900 12 25 16 11 12 12 11 12 12 12 13 28
N31893 13 24 15 10 12 16 11 13 13 12 13 28
N1832 13 25 14 10 13 17 11 10 13 12 14 28

3. Y-Utility: Y-DNA Comparison Utility, Ysearch Mode
Копируем содержание файла в буфер обмена и...
вставляем в окошко Paste haplotype rows here (without marker headers)
3.1 В Разделе Generate Tables оставляем галочку только в TMRCA (infinite allele model) и Generate PHYLIP data
3.2 В поле Probability выбираем (на усмотрение) 95%
3.3 В поле Mutation Rate выбираем FTDNA
3.4 Нажимаем кнопку Execute
3.5 На новой странице получаем обработанные данные
PHYLIP compatible TMRCA table
18
     modal 0 4320 7860 2820 2160 1560 2160 5280 7860 4320 4320 2820 4320 4320 3510 4320 5280 6390
     18772 4320 0 13020 7860 6390 5280 4320 5280 7860 7860 9840 6390 9840 9840 6390 3510 7860 6390
     82790 7860 13020 0 9840 9840 7860 9840 9840 13020 5280 9840 9840 7860 3510 6390 13020 7860 3510
     77254 2820 7860 9840 0 2160 3510 2820 6390 7860 5280 4320 5280 4320 5280 5280 3510 5280 7860
     46657 2160 6390 9840 2160 0 2820 2160 6390 6390 5280 3510 4320 3510 5280 3510 3510 4320 7860
     80057 1560 5280 7860 3510 2820 0 2820 6390 9840 5280 4320 2160 3510 5280 3510 5280 6390 7860
    N32933 2160 4320 9840 2820 2160 2820 0 5280 6390 6390 4320 4320 3510 5280 4320 2820 4320 6390
    N29639 5280 5280 9840 6390 6390 6390 5280 0 7860 6390 6390 5280 9840 4320 5280 5280 7860 5280
     52465 7860 7860 13020 7860 6390 9840 6390 7860 0 13020 9840 13020 5280 6390 9840 6390 2160 7860
     22754 4320 7860 5280 5280 5280 5280 6390 6390 13020 0 7860 7860 6390 4320 7860 6390 9840 4320
    N40092 4320 9840 9840 4320 3510 4320 4320 6390 9840 7860 0 2820 4320 7860 3510 6390 6390 13020
    N23232 2820 6390 9840 5280 4320 2160 4320 5280 13020 7860 2820 0 5280 6390 3510 7860 7860 9840
    N40402 4320 9840 7860 4320 3510 3510 3510 9840 5280 6390 4320 5280 0 5280 4320 5280 3510 9840
     27280 4320 9840 3510 5280 5280 5280 5280 4320 6390 4320 7860 6390 5280 0 5280 7860 4320 2820
    N13973 3510 6390 6390 5280 3510 3510 4320 5280 9840 7860 3510 3510 4320 5280 0 6390 6390 9840
    N50900 4320 3510 13020 3510 3510 5280 2820 5280 6390 6390 6390 7860 5280 7860 6390 0 6390 7860
    N31893 5280 7860 7860 5280 4320 6390 4320 7860 2160 9840 6390 7860 3510 4320 6390 6390 0 5280
     N1832 6390 6390 3510 7860 7860 7860 6390 5280 7860 4320 13020 9840 9840 2820 9840 7860 5280 0
3.6 Копируем полученные данные и сохраняем их в файле (txt), к примеру mydna.txt

4. Fitch (PHYLIP)
4.1 Копиурем файл mydna.txt в папку с программой Fitch.
4.2 Запускаем программу и адресной строке указываем имя файла (mydna.txt), нажимаем <Enter>.
4.3 Далее устанавливаем некоторые опции (приведу те, которые выбираю я)

Вводим J <Enter>. Задаем значение 9<Enter>Задаем значение 11<Enter>
Нажимаем Y<Enter>
4.4 Получаем файл outtree.

5. Mega 3.1
(Прим.Можно использовать и другие программы)
5.1 Переименовываем файл outtree в outtree.tre
5.2 Открываем файл outtree.tre в программе Mega (дважды "кликаем" на файл)
5.3 Экспериментируем с Древом. Полученный результат можно доработать в Photoshop'е

В итоге, получаем нечто подобное:


P.S. Данный алгоритм не является исчерпывающим - существуют, наверняка, и другие. Буду рад ознакомиться с улучшениями и дополнениями (изменениями) данного алгоритма...
« Последнее редактирование: 25 Февраль 2010, 00:22:24 от Grigoriev »

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Делаю попытку в несколько приемов создать иллюстрированное руководство пользователя по самостоятельному созданию филогенетических деревьев.
Было бы неплохо, если маститые мастера построений дали бы тоже свои мастер классы.
Итак.
Этап 1.
Как извлечь 17-маркерные сходные гаплотипы с сайта http://www.ysearch.org ?

Предполагается, что Вы зарегистрировались там и внесли значения аллелей по каждому из протестированных локусов.
После чего получили индентификационный номер. Ну, например UA87M.
Идем на главную страницу:

и вверху кликаем на окошко SEARCH FOR GENETIC MATCHES:

В открышемся окошке вводим идентификационный номер от Ysearch и давим на кнопочку SEARCH. В открывшемся окошке выставляем всё, как обозначено на картинке:

Предполагается, что мы не знаем, какая у нас гаплогруппа. Или же просто не очень доверяем людям, введшими свои данные. :)
Итак, поставили что хотим провериться только с людьми, имеющими не меньше 17 таких же маркеров, что и у нас (любители расплывчатых толкований, уходящих на тысячелетия, могут выбрать 12, но я бы всё-таки настоятельно рекомендовал всем прошедшим тест у Балановских именно 17; хотя бы на первом этапе).
Выставили максимальную генетическую разницу 6. (Примеры генетической разницы 6: 6 одношаговых мутаций, или 4 одношаговых и 1 двушаговая, или 3 двушаговых и т. д.)
Гаплогруппу (пока!) не выбираем.
Вводим написанное словечко.
Давим на SEARCH.
Получаем нечто подобное:

Мой пример не очень удачный.
Во-первых, гаплотип среди протестированных на сегодня очень редкий. (То есть он не какой-то особый сам по себе. Просто похожие люди живут в сельских, не самых богатых районах, не самой богатой вообще, Украины. :( )
Во-вторых, я проверился по 75 маркерам, что дополнительно несколько сбивает с толку.
Я использую обычно несколько иные настройки, что дает мне примерно такую вот картинку:


Коллеги, я очень надеюсь, что кто-нибудь из прошедших тест у Балановских наконец-то зарегистрируется на Ysearch и я продолжу объяснение на конкретном примере.

Более того планирую объяснить как получить данные с http://www.ydna.ru/ydb и из базы Соренсона.
« Последнее редактирование: 27 Апрель 2009, 01:14:08 от Mich Glitch »

Оффлайн zastrug

  • ...
  • Сообщений: 11272
  • Страна: ru
  • Рейтинг +2845/-49
  • I2b1c (P78+)=I2a2a1b1a= I2a1b1a2a1a1( I-FT413656)
  • Y-ДНК: I2b1c
  • мтДНК: T2a1a
Цитировать
Один из алгоритмов построения филогенетического древа выглядит следующим образом.
Уважаемый Centurion, а для поколения так и оставляем 30 лет?

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Цитировать
Один из алгоритмов построения филогенетического древа выглядит следующим образом.
Уважаемый Centurion, а для поколения так и оставляем 30 лет?
Вопрос был не ко мне, но выскажу свои соображения тоже.
Когда мы измеряем расстояние до общего предка в годах, необходимо взять некое значение для одного поколения.

Среднее поколение в годах - это медианное значение, возраста отца на момент рождения ребенка.
Понятно, что мы можем предположить, что в "варварские времена" возможно отцами становились очень рано. С другой стороны, вероятность того, что отпрыск молодого папаши (или наоборот, слишком старого) умирал во младенчестве, не достигнув репродуктивного возраста - очень высока.

Как же быть?

1) Можно принять условное значение произвольно. Волюнтаристким образом. А потом под него откалибровать скорость мутаций. Именно так поступил уважаемый Анатолий Клёсов, взяв за среднюю длительность поколений 25 лет.

2) Можно исследовать на основе генеалогий средний возраст отцовства, рассматривая пары отец-сын. Именно так, исследовав более 116 тысяч пар и поступили в лаборатории Соренсона. Получили, что-то около 31.6 лет на поколение по отцовской линии.
Я использую 30 лет. Помимо вполне резонного округления, соответствующего общей точности расчетов, принимаю во внимание тот факт, что замеры во многом соответствуют современной ситуации, когда жениться и заводить детей стали позже.

Исследуя собственное родословие, Вы можете взять среднюю цифру исходя из данных только по Вашей семье. В моем случае, для мужчин она опять-таки вертится вокруг 30 лет на поколение.
« Последнее редактирование: 28 Апрель 2009, 03:39:41 от Mich Glitch »

Оффлайн CenturionАвтор темы

  • 100% Earth (Solar System) genofond
  • Администратор
  • *****
  • Сообщений: 9548
  • Страна: ru
  • Рейтинг +571/-2
Цитировать
Исследуя собственное родословие, Вы можете взять среднюю цифру исходя из даных только по Вашей семье. В моем случае, для мужчин она опять-таки вертится вокруг 30 лет на поколение.
У меня так:
12 - ?
11 - 33
10 - 44
9 - 31
8 - 28
7 - 22
6 - 45
5 - 22
4 - 37
3 - 26
2 - 23
1 - я

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Цитировать
Исследуя собственное родословие, Вы можете взять среднюю цифру исходя из даных только по Вашей семье. В моем случае, для мужчин она опять-таки вертится вокруг 30 лет на поколение.
У меня так:
12 - ?
11 - 33
10 - 44
9 - 31
8 - 28
7 - 22
6 - 45
5 - 22
4 - 37
3 - 26
2 - 23
1 - я

То есть, используя один только lineage без учета братьев и сестер, имеем 31.1 года на поколение.

Как и все величины в генеалогии, калибровку можно проводить вглубь (так как мы сделали это выше), или же вширь. Т.е. взять один какой-нибудь год и по метрическим книгам посмотреть средний возраст на момент отцовства.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Этап 2.
Создаем таблицу Excel.


Берем реальный номер J32Z9. Вводим его на http://www.ysearch.org .
Выставляем 17 маркеров и генетическую разницу 3.
Получаем сл. табличку:

Что мне в это табличке нравится? Соблюдено гаплогруппное однообразие.
Что мне не нравится? Обилие британцев-шотландцев тестированными иными, отличными от FTDNA, компаниями. Не факт, что ребята что-нибудь слышали о том, что разные компании используют различные номенклатуры.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Кликаем на Check All, напротив всех учетных записей появляются галочки.
Затем давим на COMPARE в первом столбике таблицы.
Получается вот так:

Вводим написанное слово и давим на  кнопку Show comparative Y-DNA results.
Имеем на выходе

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Теперь деликатная операция. Выделяю всю таблицу, начиная со второй строки.
Т.е. наименования маркеров не копирую.
Вот так примерно (правильно):

Неправильно (пропущен номер первого пользователя):

Правильно (всё выделили):

Неправильно (пропустили несколько последних квадратиков):


Итак. Выделили мы всё. Нажали правую клавишу мышки. Выбрали опцию копировать. Запустили Эксел. Подвели курсор к первой клеточке. Нажали Paste (или Наклеить, или Вставить) и получили вот такую чудную табличку:

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Могут спросить, мол, как так? Оставили одни значения аллелей, а названия локусов взяли, да, и отсекли?
Да, откинули.
Ни к чему они нам на 17 маркерах.
Переменные скорости мутаций последний раз калибровались в 2003 году. Да и то не на слишком большом количестве данных.
Я использую постоянную скорость мутаций для 17, 25, 37 и 67 маркерных гаплотипов. 12-маркерными гаплотипами, в силу их непригодности для генеалогических нужд, не занимаюсь вовсе.
Так вот, использую скорость 0.002 мутация / (поколение* маркер).
Увеличение, или уменьшение скорости мутаций на топологии никак не отражается. А что до расчета времени до общего предка, так оно носит приблизительный характер.
Вернемся к таблице Эксел.
Необходимо привести ее к унифицированному виду.
Сначала уничтожим те значегия маркеров, которые отсутствуют в основном гаплотипе. Т.е. у J32Z9.
Выделяем столбики с пробелами (видите, у нас в первой строчке отсутствуют значения в колонках J и K?):

и стираем (колонки сдвинулись):

В конечном счете у нас должно остаться только 17 колонок со значениями маркеров (не больше, и не меньше!).
Не забываем о сохранении промежуточных результатов. Т.е. после того, как убрали все ненужные маркеры, взяли и скопировали таблицу на лист 2.

Далее. Выделили второй (фамилии) и третий (страны) столбцы и тоже стерли.
В конце-концов у нас получилось следующее:

« Последнее редактирование: 28 Апрель 2009, 01:07:24 от Mich Glitch »

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Этап 3.
Создание входного файла.

Открываем Y-Utility: Y-DNA Comparison Utility, Ysearch Mode
Копируем наши данные из Эксел и клеим их в окно Paste haplotype rows here (without marker headers):. Расставляем галочки. Изменяем скорость мутаций (Mutation Rate). Получается следующее

Давим на кнопку Execute.
« Последнее редактирование: 28 Апрель 2009, 06:48:08 от Аббат Бузони »

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Сначала скрипт истошно вопит в окошке-предупреждении о том, что значение аллелей находятся вне допустимых рамок для данного маркера.
Просто давим на ОК.
Затем в новом окошке с результатами

из окна PHYLIP compatible TMRCA table копируем данные. Открываем Блокнот, клеим туда данные и сохраняем в файле под названием infile. Затем открываем директорию, где это файл сохранен и отрезаем у него расширение .txt.

Входной файл готов!

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Этап 4.
Создание выходного файла.

Закачиваем дистрибутив PHYLIP.
Он состоит из большого числа исполняемых (т.е. не требующих установки) файлов.
По первости нам понадобится только Fitch.
Помещаем его в одну папку с нашим infile и дважды кликаем на fitch.exe.
В выплывшем окошке

ничего не меняем, а просто печатаем у и жмём ввод.
Если рассмотрим папку, то заметим, что в ней появился файл outtree. Это и есть наш выходной файл.
« Последнее редактирование: 28 Апрель 2009, 01:24:42 от Mich Glitch »

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Этап 5.
Рисуем дерево.

Воспользуемся для рисования простой программой MEGA 4 (ссылка).
Закачиваем и устанавливаем.
К нашему выходному файлу outtree добавляем хвостик .tre. То есть получаем файл outtree.tre.
Дважды кликаем на outtree.tre и, о чудо! Получаем следующие каракули:

Какие выводы можно сделать?
1) Процесс построения деревьев - итеративный. То есть в несколько проходов с использованием для каждой новой итерации (повтора действий) промежуточных результатов в качестве отправных. Обозначается это термином причесывание.
2) На данном построении наш исходный гаплотип близок к модальному. Модальным называется такой гаплотип, значения аллелей у которого, наиболее часто встречающиеся. Если учесть, что отбор гаплотипов мы делали, пляша от J32Z9, да еще и на небольшие генетические дистанции, нет ничего удивительного в том, что исходный и модальный гаплотипы почти совпадают.
3) Все гаплотипы расположены по отношению к исходному не ближе 1500 лет. (Внизу расположена масштабная отметка в 500 лет). Т.е. надо подождать, пока другие участники проекта Балановских введут свои данные на Ysearch и повторить процедуру.
« Последнее редактирование: 28 Апрель 2009, 02:11:54 от Mich Glitch »

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Этап 6.
Причесывание.


Убрав модальный гаплотип и несколько раз поменяв исходный гаплотип, пришел к выводу, что окружение исследуемого гаплотипа всегда остается одним и тем же. Примерно вот так:


Если мы посмотрим страны исхода гаплотипов

то всё выглядит очень логично - Польша, Чехия, не ближе 1500 лет.
Затесались, как всегда, несколько мутных шотландцев (ну, как без них сердечных), да англичан со шведами. Посмотрев на использованные ими для тестирования лаборатории (о чем я писал в самом начале), убеждаемся, что велик шанс того, что все просто не привели к единой конвенции.

В соседней ветке 17 локусов Valery пишет:
Вывод: Парсимонистские филогении, основанные на 17 и менее локусах У-хромосомы, случайны и ненадежны.
Полностью разделяю его точку зрения.

Можно порисовать при наличии хорошей кучки гаплотипов из России с генетической дистанцией не больше 3. Но полученный результат будет расплывчатый и не всегда однозначный.
« Последнее редактирование: 28 Апрель 2009, 03:37:08 от Mich Glitch »

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.