АвторТема: Полезные ссылки по аутосомным калькуляторам и другая информация  (Прочитано 31850 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн SrkzАвтор темы

  • Сообщений: 8462
  • Страна: ru
  • Рейтинг +4813/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Добавлена программа для простого запуска аутосомных калькуляторов проекта DODECAD.

Оффлайн SrkzАвтор темы

  • Сообщений: 8462
  • Страна: ru
  • Рейтинг +4813/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
FAQ (часто задаваемые вопросы) по аутосомным этно-калькуляторам

В: Что такое аутосомные калькуляторы? Как они работают?
О: Аутосомные этно-калькуляторы предназначены для определения происхождения тестируемого на основании анализа его генома. Здесь возможны разные подходы. В этом FAQ разбирается лишь одна их разновидность - калькуляторы, действующие на основании анализа статистических закономерностей распределения снипов в разных популяциях.

В: Где можно воспользоваться этими калькуляторами?
О: Проще всего закачать свой файл raw data на бесплатный сервис gedmatch.com, калькуляторы находятся там в разделе Admixture. Также многие калькуляторы доступны для самостоятельного запуска, ссылки на них собраны в теме http://forum.molgen.org/index.php/topic,5736.msg188314.html#msg188314 . Компании, занимающиеся генотипированием, часто предоставляют клиентам свои версии этно-калькуляторов, более или менее удачные. Кроме этого, существуют проекты геномных блоггеров (однако большинство из них прекратили прием новых участников), а также ряд сайтов, занимающихся анализом загружаемой raw data - часть из них делает это за плату.

В: Я запустил калькулятор на Gedmatch, он показал мне, что я на 30% восточный европеец, на 40% западный, на 15% средиземноморец. Что все это означает?
О: Это так называемые предковые компоненты. Они очень древние, по большей части идут еще из каменного века. Названия даются условно, обычно по районам, где компонент наиболее распространен. Слегка упрощая, можно сказать, что у большинства европейцев наследственность сложена из одних и тех же компонентов, разница в их соотношении между собой.

В: Почему, к примеру, в одном калькуляторе у меня 16% Кавказа, а в другом всего 5%? Неужели погрешность настолько велика?
О: В разных калькуляторах компоненты выделяются несколько по-разному и обозначают разные вещи. Поэтому напрямую сравнивать их нельзя, даже если название совпадает. Некоторые калькуляторы сделаны в виде серий с постепенно увеличивающимся количеством компонентов (оно обозначается буквой K). При маленьком количестве компонентов показывается общая картина, затем, при увеличении K, изначальные компоненты расщепляются на более мелкие и детальные. При этом название у некоторых может сохраниться.

В: А как определить более свежее происхождение, не на тысячелетия назад?
О: Сравнивая свои результаты с результатами других людей. Чем более они похожи, тем ближе вы к народу, из которого происходят эти люди. Для упрощения процесса созданы специальные инструменты под названием "Оракулы". В них собраны наиболее типичные результаты для разных популяций (народов), эти результаты сравниваются с вашими и показываются наиболее близкие варианты. На Gedmatch оракулы запускаются кнопками Oracle, Oracle-4, Oracle-X в нижней левой части окошка, где показывают ваши результаты по предковым компонентам. Расстояние указано в правой колонке, обычно хорошим приближением считается в пределах 5.

В: Что, если у меня предки происходят из разных местностей? Как их выделить?
О: Оракулы приводят возможные комбинации предков, которые могли дать результат, близкий к вашему. Обратите внимание, что к одному и тому же результату можно прийти разными путями, здесь приводится лишь список наиболее вероятных вариантов.

В: Какие калькуляторы лучше всего подойдут восточноевропейцам?
О: Наилучшую детализацию для восточноевропейцев дают проекты MDLP и Eurogenes. Оптимально попробовать все калькуляторы и сравнить их между собой.

В: Что такое Oracle-4, Oracle-X?
О: Оракул четырех предков пытается подобрать наиболее близкие к вам сочетания сначала двух предков (папа+мама), затем трех (например, папа + дедушка и бабушка по маме), затем четырех (два дедушки и две бабушки). Oracle-X пытается разложить вашу наследственность на неопределенное число предков, это не оракул для X-хромосомы, как часто думают.

В: Результаты оракула слишком далеки от моего настоящего происхождения.
О: К сожалению, многие оракулы страдают от искажения результатов, этот эффект будет описан мной в отдельной заметке. Если подходить к делу практически, можно порекомендовать использовать оракул Eurogenes JTest/EUtest для людей, у которых ожидаемые предки происходят из близких популяций, и MDLP World-22 для людей сильно смешанного происхождения. EUtest V2 тоже может дать хороший результат, но у многих людей в этом калькуляторе слишком большое отклонение.
     Возможная причина эффекта

В: Почему оракул выдает такие странные сочетания? Мои предки из-под Ярославля, а он показывает Эстонию+Север, или Эстонию+Поволжье.
О: У оракула в списке эталонов нет русских Ярославля, поэтому он ищет наиболее близкое к ним сочетание. С его точки зрения, это что-то среднее между Эстонией и Поволжьем или Эстонией и Севером. Географически Ярославль подходит сюда совсем неплохо. Такой результат вовсе не означает, что среди ваших предков обязаны быть эстонцы или кто-то еще из перечисленных.

В: По семейной легенде, среди моих предков были евреи-ашкенази. Можно это как-то определить?
О: Хорошие результаты в этом смысле дает калькулятор Ancestry Composition компании 23andMe. Однако самый лучший метод - анализ количества совпаденцев (людей, с которыми у вас есть длинные общие сегменты на хромосомах), оно должно быть в разы выше типичных значений. В большинстве аутосомных калькуляторов ашкенази очень близки к грекам и южным итальянцам, разделить их сложно.

В: По семейной легенде, среди моих предков были цыгане. Что может свидетельствовать в эту пользу, наличие компонента Индия/Южная Азия?
О: Цыгане действительно имеют заметные количества этого компонента. Однако его наличие у русских обычно объясняется другими причинами. Во-первых, фоновое распространение среди русских в районе 0-2% (в зависимости от калькулятора). Во-вторых, этот компонент часто встречается у народов Поволжья, и далее его процент растет по направлению к Средней Азии и Индии.

В: Моя бабушка была похожа на грузинку, а калькулятор ничего подобного не показывает. Как такое может быть?
О: Внешность очень обманчива. Как говорят знатоки антропологии, судить о происхождении отдельного человека на основании его внешности нельзя. Впрочем, народное мнение здесь непоколебимо.

В: Калькулятор нашел у меня около 1% Меланезии. Неужели среди моих предков были папуасы?
О: Видимо, это издержки вероятностного подхода. На небольшие отклонения в районе 1% можете смело не обращать внимания.

В: Говорят, эти калькуляторы основаны на небольших любительских коммерческих выборках, русских там представляют чуваши, а словаков евреи.
О: Современные калькуляторы основаны на большом количестве научных выборок (сотни популяций, тысячи человек). Непредставительные результаты исключаются.

В: Все равно, разве можно делать выводы по таким маленьким выборкам?
О: Если выборка сделана правильно, то достаточно сравнительно небольшого размера. Научные выборки хорошо представляют разнообразие населения Земли. Конечно, если добавить дополнительные данные, это поможет уточнению деталей, но радикальных изменений результата не произойдет.
« Последнее редактирование: 06 Февраль 2014, 15:25:43 от Srkz »

Оффлайн valera27

  • Сообщений: 732
  • Страна: ru
  • Рейтинг +161/-0
  • Y - R1a1a-YP682(xYP1260,YP612,YP1696); mt - H1a
Классный FAQ!
Но, ИМХО, не совсем раскрыты темы:
1) Область применения каждого из калькуляторов. Некоторые вещи общеизвестны (серия MLDP рекомендована для восточноевропейцев, Harappa для азиатов, а Africa9 - строго для африканцев), но подозреваю, что и в других существует определенный "уклон" ( судя по тому, что в разных калькуляторах, в т.ч. и в оракулах, получаются разные результаты, что зачастую дезориентирует начинающих пользователей)
2) Что означает каждый компонент в каждом конкретном калькуляторе (в смысле, есть ли ссылки на инструкции к калькуляторам, где это все подробно описывается)
3) Как правильно понимать Mixed mode обычного оракула ( для Оракула-4 вроде доходчиво изложили)

Оффлайн VVR

  • ...
  • Сообщений: 2456
  • Страна: ua
  • Рейтинг +618/-0
  • Y-ДНК: o.R1a1a1b1a2a1a1a1e~-YP569,YP1260+;м.R1a1a1b1a1a1a2~-L260,YP1337+
  • мтДНК: K1c1h
У меня такой вопрос. Генетические расстояния разные калькуляторы(разные системы) считают одинаково?

Оффлайн SrkzАвтор темы

  • Сообщений: 8462
  • Страна: ru
  • Рейтинг +4813/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
У меня такой вопрос. Генетические расстояния разные калькуляторы(разные системы) считают одинаково?
Каждый по-своему, обычно, чем больше компонентов в калькуляторе (значимых для данной местности, допустим, для европейца не сыграет роли количество африканских компонентов), тем выше в среднем получаются расстояния.
В качестве расстояния берется среднеквадратичное отклонение, разница между значением компонента у тестируемого и у эталона возводится в квадрат, затем значения по всем компонентам суммируются и вычисляется корень. Например, для случая с двумя компонентами получается теорема Пифагора. Для большего количества осей принцип тот же

Оффлайн SrkzАвтор темы

  • Сообщений: 8462
  • Страна: ru
  • Рейтинг +4813/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Что означает каждый компонент в каждом конкретном калькуляторе (в смысле, есть ли ссылки на инструкции к калькуляторам, где это все подробно описывается)
Смотрите карты и таблицы распределения по ссылкам из первого поста темы.
Цитировать
Как правильно понимать Mixed mode обычного оракула ( для Оракула-4 вроде доходчиво изложили)
На примере:
Цитировать
Цитировать
#       Primary Population (source)    Secondary Population (source)    Distance
1        87.6%   LIT    +    12.4%   Lezgin    @    3.15
Литовец понятно...а что означает второе + 12.4%   Lezgin    @    3.15  ???

Как вообще интерпретируется второе? Типа или литовец или лезгин?  ???
Это значит, что если соединить на карте Литву и Северный Кавказ, то вы на этой линии примерно на расстоянии 1/8 от Литвы, 7/8 от Кавказа, то есть калькулятор позиционирует вас в восточной Беларуси.
Ну или если бы вы были литовцем по национальности, тогда ваш прадедушка мог бы быть лезгином.
Точнее, Антон, а не вы, что-то я не обратил внимания  ;D

Оффлайн SrkzАвтор темы

  • Сообщений: 8462
  • Страна: ru
  • Рейтинг +4813/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Добавлены ссылки на K27

Оффлайн SrkzАвтор темы

  • Сообщений: 8462
  • Страна: ru
  • Рейтинг +4813/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
В блоге Вадима Веренича появилась ссылка на любопытную информацию для использования в контексте "Оракула четырех предков" и генеалогических исследований. Собрана статистика о том, какая часть генома человека, полученная от одного из родителей, перешла по наследству от одного из дедушек/бабушек. На верхней картинке изображено распределение для генов, полученных с материнской стороны. Как видите, оно близко к ожидаемому - наиболее часто сочетание 50% от дедушки по материнской стороне, 50% от бабушки, нередко встречается и 40/60. На нижней же картинке приведено распределение с отцовской стороны. Многие слышали, что у мужчин рекомбинация (то есть перемешивание) при передаче генетического материала происходит с более низкой частотой, чем у женщин. На гистограмме это проявляется очень заметно - наиболее частым сочетанием оказалось 40/60, нередки и 30/70. У статистически значимого количества людей - около 0,5% исследованных - отклонение настолько велико, что соотношение даже меньше, чем 20/80.

В практическом отношении это означает такую наиболее вероятную раскладку для конкретного человека:
25% (зона наибольшей вероятности 20-30%) получено от дедушки по матери
25% (зона наибольшей вероятности 20-30%) получено от бабушки по матери
20% (зона наибольшей вероятности 15-25%) получено от одного из предков (дедушка/бабушка) по отцу
30% (зона наибольшей вероятности 25-35%) получено от второго из предков по отцу
« Последнее редактирование: 22 Октябрь 2013, 11:15:02 от Srkz »

Оффлайн SrkzАвтор темы

  • Сообщений: 8462
  • Страна: ru
  • Рейтинг +4813/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Кстати, этим же можно объяснить и замеченный эффект, что тестируемые в среднем более похожи на маму, чем на папу.

Оффлайн Людмила

  • Сообщений: 1007
  • Рейтинг +151/-1
Наверно статистически это так, но по моим детям не особенно видно. Одна дочь имеет действительно примерно поровну ген.материала от моих родителей - 1, 51 Gb от моей мамы и 1,5 Gb от моего отца. Но 2ая дочь - 1,3 от бабушки и 1,68 от дедушки. От 2ой бабушки у них материала больше, чем с моей стороны - 1,78 Gb и 1,64 Gb.
Цитировать
замеченный эффект, что тестируемые в среднем более похожи на маму, чем на папу.

Первый раз слышу.

Оффлайн SrkzАвтор темы

  • Сообщений: 8462
  • Страна: ru
  • Рейтинг +4813/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Но 2ая дочь - 1,3 от бабушки и 1,68 от дедушки.
Соотношение 43/57, хорошо укладывается в "нередко встречается и 40/60" (если в категориях доли от четырех предков, получаем 22% и 28%)
Цитировать
От 2ой бабушки у них материала больше, чем с моей стороны - 1,78 Gb и 1,64 Gb.
Тоже согласуется, с отцовской стороны разброс ожидается в среднем выше.
Цитировать
Цитировать
замеченный эффект, что тестируемые в среднем более похожи на маму, чем на папу.

Первый раз слышу.
Имелось в виду по аутосомным этно-калькуляторам, эффект был замечен мной при обработке данных K27

Оффлайн Eugene

  • Санктпетербурхъ
  • Сообщений: 6777
  • Страна: th
  • Рейтинг +1081/-41
    • N1c1 Y-DNA Project
  • Y-ДНК: N-BY32524
  • мтДНК: U-C1341T
Думаю что на полногеномных последовательностях будет стремиться к 50/50

Оффлайн SrkzАвтор темы

  • Сообщений: 8462
  • Страна: ru
  • Рейтинг +4813/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Имелось в виду по аутосомным этно-калькуляторам, эффект был замечен мной при обработке данных K27
Дополню, в общем смысле, конечно, сходство с обоими родителями должно быть одинаковым. Почему именно в калькуляторах в некоторых случаях должно быть по другому, долго объяснять, но оно логично согласуется ;D
Думаю что на полногеномных последовательностях будет стремиться к 50/50
Может быть, но мне кажется, не очень повлияет

Оффлайн Людмила

  • Сообщений: 1007
  • Рейтинг +151/-1
Цитировать
Имелось в виду по аутосомным этно-калькуляторам, эффект был замечен мной при обработке данных K27
Сергей, Вы сравнивали внутрисемейные данные? Мне вроде помнится, что Вы просили присылать данные  либо себя, либо родителей? Или я не так поняла?

Оффлайн SrkzАвтор темы

  • Сообщений: 8462
  • Страна: ru
  • Рейтинг +4813/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Цитировать
Имелось в виду по аутосомным этно-калькуляторам, эффект был замечен мной при обработке данных K27
Сергей, Вы сравнивали внутрисемейные данные? Мне вроде помнится, что Вы просили присылать данные  либо себя, либо родителей? Или я не так поняла?
Все правильно, изначально я так и писал, но потом для ряда людей сделал просчет и по членам их семей в качестве бонуса. В итоговую таблицу результаты по тесно связанным родственникам не пошли, за исключением одного или двух случаев. Если вы хотите карты по вашим родственникам, то это можно сделать, шлите файлы.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.