АвторТема: Полногеномный сиквенс (WGS), где и как использовать результаты?  (Прочитано 8480 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Вот тебе. Оказалось, что Генезис бесплатный. Зарегистрировался. Грузить пока туда нечего.
так я туда все свои результаты 23andMe и FF залил.

А смысл?

Оффлайн ankr21

  • Сообщений: 2256
  • Страна: ru
  • Рейтинг +551/-0
  • Y-ДНК: I1-L1302
  • мтДНК: U3b1b
Интересное кино:

Largest segment = 53.6 cM

Total Half-Match segments (HIR) = 2562.4 cM (71.4 Pct)
Estimated number of generations to MRCA = 1.2

169 shared segments found for this comparison.

2149947 SNPs used for this comparison.

71.0 Pct SNPs are full identical

Comparison took 4.017 seconds.
CPU time used: 0.203 cpu seconds.

Ver: Feb 16 2018 22:56:37


Estimated number of generations to MRCA = 1.2, Карл!     :o

То есть, геномы полные, а считают по старому. Вот и получились братишками.     :-X
да, у них тут недоработано ещё. Тоже заметил. Исправят может быть, когда больше полногеномных образцов в базе появятся. Можно ещё попробовать с порогами поиграться. Загрубить немного.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Вот один братейка:



А это другой:




:)

Оффлайн Daemon2017

  • Сообщений: 2159
  • Страна: ru
  • Рейтинг +1045/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Прочитал в параллельной ветке о возможности обрезать аутосомы по третьему чипу и воткнуть в ГедМатч. (Речь, правда, идёт о совсем другой лаборатории.)

Меня это совершенно не интересует в том смысле, что сделал уже тесты и в 23эндМи и в ФТДНА (ФФ).
Весь смысл в том, чтобы использовать именно полный геном для попарных сравнений.
Посмотреть, насколько точнее и глубже можно детектировать родство. Ведь если абстрагироваться от инструментальных ошибок, то это уже предел.      :o

Когда-то (года 2 назад) в переписке Хэйвард (создатель Гедматча) упоминал, что будущая версия Гедматча (ныне получившая название Генезис) будет иметь задел под аутосомы из WGS. Без сроков, но всё таки, упоминал. Так что есть шанс даже того, что к моменту доставки Вам результатов, ничего резать не надо будет  :)
Ума, правда, не приложу, сколько выйдет по стоимости хранение WGS, когда они станут столь же массовыми, как FF. Может быть даже такое, что владельцам WGS придется платить абонентскую плату за то, что их файлы хранят  ???
Так в базе Генезис вроде уже есть полногеномные образцы.
https://genesis.gedmatch.com/v_OneToMany2.php?kit=ZP6643585 Например
Я даже сравнил образец из FGC и из Dante. Больше 2 млн snp учавствуют в сравнении.
2149947 SNPs used for this comparison.
Ссылка не работает. Надо залогиниться.

О, блеск! Хэйвард слово держит  ::)

Оффлайн Daemon2017

  • Сообщений: 2159
  • Страна: ru
  • Рейтинг +1045/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Вот тебе. Оказалось, что Генезис бесплатный. Зарегистрировался. Грузить пока туда нечего.
так я туда все свои результаты 23andMe и FF залил.

А смысл?

Смысл, как минимум, в том, что уже сейчас неГенезис находится в режиме поддержки - даже работу с наборами на чипе V5 к нему прикручивать не стали. А когда Генезис впитает весь функционал из неГенезиса, то БД с неГенезисом отключат.
Лично я всех тестируемых заливаю и туда, и сюда  ;D

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Не так.  :)

Простым английским языком разработчиками писано, что когда отладка Генезиса закончится, его сольют с основной базой. Ну, или основную базу с ним.
И это правильно, товарищи. И совершенно логично.



Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Иными словами. Если у вас стандартные результаты, то заливать их лучше в основную базу.

Генезис в нынешнем виде позволяет дополнительно сравниться с нестанартными результатами. Но таких пока - только десятки. Максимум, сотня-две.

Оффлайн NathanS

  • Сообщений: 1277
  • Страна: 00
  • Рейтинг +1202/-2
Пока не разобрался, как читать BAM. Не смог установить все модули из-за несовестимости между Python 2 и 3.
Пока пробую работать с VCF - этот файл доступен клиентам Dante Labs напрямую, как будут доступны результаты. Да и работать с ним проще - не надо дополнительных модулей.

Загрузка VCF для hg19/GRCh37 занимает время (8 Gb). Посмотрим, что будет.

Пока сделал базу данных по снипам в ФТДНА, Ancestry и MyHeritage.

FTDNA, MyHeritage, Ancestry - 427'455 общих снипов,
FTDNA, MyHeritage                 - 292'879 общих снипов,
FTDNA, Ancestry                     - 15 общих снипов,
Ancestry, MyHeritage               - 270 общих снипов,
FTDNA                                     - 1 уникальный снип,
MyHeritage                               - 212 уникальных снипов (все в Y-хромосоме)
Ancestry                                   - 241'202 уникальных снипов.
----------------------------------------------------------------------------------------
Сумма                                         962'034 снипа

VCF из Dante Labs дает 3'426'278 снипов отличных от эталонного генома (hg19, в моих результатах из Данте).

Планирую сделать так:
проверять VCF на генотип (962'034 снипа),
при отсутсвии генотипа в VCF, брать генотип из референса,
вывести все как файл в формате FTDNA/MyHeritage,
протестирую загрузить на GEDmatch.
« Последнее редактирование: 05 Март 2018, 02:38:44 от NathanS »

Оффлайн NathanS

  • Сообщений: 1277
  • Страна: 00
  • Рейтинг +1202/-2
Пока по работе с VCF.

Добавил снипы с LivingDNA и 23andme (файлы 2018 версия 5, 2011, 2013 и 2015 гг.)
Всего снипов 1'611'055.
Общих снипов для все наборов - 115'258.
FTDNA - 0 уникальных спинов (нет в других наборах).
Ancestry - 169'502 уникальных.
MyHeritage - 34 уникальных (Y хромосома).
Living DNA - 7'409 уникальных.
23andme 2011 - 690 уникальных.
23andme 2013 - 16'051 уникальных.
23andme 2018 v. 5 - 21'273 уникальных.

Из рефенсного генома hg19/GRCh37 удалось вытянуть большинство снипов - без референса остались пока 3976 снипов.
217'613 снипов имеют позицию отличную от референса - в основном это снипы 23andme, как версия 5, так и более ранние файлы. Пока подправляю позиции под hg19/GRCh37, чтобы GEDmatch не жаловался. К сожалению исправление позиций идет очень медленно. Думал что программа зациклилась и прервал через пару дней, но переписав вижу, что дело идет медленно.

Оффлайн NathanS

  • Сообщений: 1277
  • Страна: 00
  • Рейтинг +1202/-2
Извиняюсь за задержки, но обработка данных занимает нескольких дней. К сожалению база данных с идентификаторами снипов не поддается индексации - идентификаторы не уникальны, а встречаются несколько раз. Это замедляет поиск в базе снипов.
Некоторые идентификаторы были изменены или слиты вместе с другими - это тоже заняло время, чтобы подправить. Старые идентификаторы есть у всех компаний - и FTDNA, Ancestry, LivingDNA и 23andme 5-й версии. Пока занимаюсь подправлением позиций и номеров хромосом с 38 референса на 37. Еще несколько дней обработки.
Если кто-то знает - gedmatch использует rsid или номер хромосомы и номер позиции?

PS До середины апреля не буду писать. Еду работать в архив.
« Последнее редактирование: 26 Март 2018, 21:10:50 от NathanS »

Оффлайн NathanS

  • Сообщений: 1277
  • Страна: 00
  • Рейтинг +1202/-2
Кое-какие результаты готовы. Конечно результаты не идеальные, но показывают, что данные полногеномного тестирования можно использовать для генеалогии.

Совпадение по полной ДНК хорошее, 3500 сМ:
https://imgur.com/a/romcU

Совпадения по хромосомам тоже неплохое - большая часть зеленая (полное совпадение), немного желтого (половинное совпадение), но есть и участки без совпадения пока.

https://imgur.com/a/nxsDW

Интересно, что GEDmatch видимо использует больше снипов, чем в стандартном наборе ФТДНА, хотя и не все, что я зарегистрировал (1.6 миллионов SNP).

https://imgur.com/a/QkZWN

Да, все пока сделано на "кустарном" уровне - никакого приложения пока нет. Да, не идеально, но не катастрофа. Несовпадения могут зависеть от перепутанных номеров хромосом и позиций, из-за отсутствия в референсе, или от синонимов в rsID. Мне не ясно чем пользуется GEDmatch - полагаются ли они на обозначения ФТДНА, или на референс hg19? Так, я обнаружил изменение позиций и номеров хромосом - видимо ФТДНА даже в результатах билд 37 использует старые обозначенбия и позиции с билд 36.

Очень ругался "старый" GEDmatch по поводу М-хромосомы, пришлось убрать. Выдал и несколько жалоб по другим хромосомам.

Мой вывод - конечно все надо доработать, но... секвенсирование генома действительно может быть единственным решением всех проблем. И аутосомы можно вытащить, и игрек тут есть для Yfull, и мито можно получить (в томже Yfull). Да и на будущее результат гарантированный - какбы чипы не менялись в будущем, все с полного генома можно будет вытащить.

А для ФТДНА можно будет "притворится" MyHeritage и переносить им результаты по формату MH.
« Последнее редактирование: 09 Апрель 2018, 21:27:12 от NathanS »

Оффлайн Srkz

  • Сообщений: 8462
  • Страна: ru
  • Рейтинг +4812/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Да, не идеально, но не катастрофа. Несовпадения могут зависеть от перепутанных номеров хромосом и позиций, из-за отсутствия в референсе, или от синонимов в rsID.
Есть еще вот такая утилита http://www.y-str.org/2014/04/bam-analysis-kit.html . При обработке ей научных BAMов аналогичное генотипированию на чипах качество у меня получалось, начиная от среднего покрытия 40-50х. Вроде бы у Dante Labs среднее покрытие 30х, возможно, просто чуть-чуть покрытия не хватило.

Оффлайн NathanS

  • Сообщений: 1277
  • Страна: 00
  • Рейтинг +1202/-2
Да, не идеально, но не катастрофа. Несовпадения могут зависеть от перепутанных номеров хромосом и позиций, из-за отсутствия в референсе, или от синонимов в rsID.
Есть еще вот такая утилита http://www.y-str.org/2014/04/bam-analysis-kit.html . При обработке ей научных BAMов аналогичное генотипированию на чипах качество у меня получалось, начиная от среднего покрытия 40-50х. Вроде бы у Dante Labs среднее покрытие 30х, возможно, просто чуть-чуть покрытия не хватило.

Да, я знаю об этих утилитах, но я не использую Windows. samtools у меня поставлены и я могу проанализировать данные через них. Хочется создать приложение для обычного пользователя, который мог бы взять VCF или BAM и сделать себе кит ФТДНА, или универсальный кит для загрузки на GEDmatch. Все утилиты полезные, но если их 20 штук, да и с командной строкой, то мы далеко не уедем. Все должно быть просто - показал на файл, получил результат.

PS В первую очередь для меня - разработка под Линукс, Виндовс - потом, при наличии компов. Я и дома, и на работе работаю с Линукс. Виндовс исключилась практически полностью в январе этого года.
« Последнее редактирование: 09 Апрель 2018, 22:44:01 от NathanS »

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Огромное-преогромное спасибище!!!

:)

Оффлайн Srkz

  • Сообщений: 8462
  • Страна: ru
  • Рейтинг +4812/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Да, я знаю об этих утилитах, но я не использую Windows.
Ну да, я в основном про зависимость от покрытия. Чем ниже среднее покрытие, тем больше попадается снипов, где один или оба аллеля оказались не прочитаны. Первый вариант должен быть хуже, поскольку для Gedmatch неотличим от нормального прочтения - допустим, на деле там AC, а показывается AA.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.