АвторТема: Компания Dante Labs  (Прочитано 26347 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 34613
  • Страна: ca
  • Рейтинг +2950/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #465 : 07 Октябрь 2019, 18:43:19 »
Я по аутосомам делал объединённый файл. Который включает чипы (в том числе и ранее использованные) 23эндМи, ФТДНА, Ансестри и, кажется Ливинг. Обо всём докладывался в этой ветке (кажется).

Всё сработало.

Загрузился куда можно. Основная надежда была на ГедМатч. На сравнение данных именно полногеномных. Не получилось у них. Показывают кучу стрёма. Любой полногеномный сэмпл по ГедМатч ближе реальных мамы-папы.    :(

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 34613
  • Страна: ca
  • Рейтинг +2950/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #466 : 07 Октябрь 2019, 18:45:20 »
В игрек-фулл заливал полный ВАМ файл (114 ГБ, если память не врёт).

ЛонгРид тоже залью. Тоже ВАМ файлом.
Просто потому, что у коллег, по словам Владимира, всего один сэмпл.
Ну, и чтобы самому посмотреть статистику качества из первых рук.



:)

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 34613
  • Страна: ca
  • Рейтинг +2950/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #467 : 07 Октябрь 2019, 18:47:06 »
Вы просмотрите ветку.
Наш форумчанин расширил референсный файл. Он крупнее (полнее) того, что в родной версии WGS Extractor.

Оффлайн sergm

  • Сообщений: 60
  • Страна: ua
  • Рейтинг +313/-0
  • Y-ДНК: R-Y17488
  • мтДНК: HV-T16311C!
Re: Компания Dante Labs
« Ответ #468 : 08 Октябрь 2019, 14:07:13 »
Также они прямо при заказе теперь дают выбрать срок, 8 недель - "обычная" цена, 2 недели - в полтора раза дороже.
Это все замечательно, но как быть, если с мая прогресс застрял на Awaiting Quality Control Inspection (QC)?

Оффлайн MCB

  • Сообщений: 26
  • Страна: 00
  • Рейтинг +16/-0
Re: Программа WGS Extract
« Ответ #469 : 09 Октябрь 2019, 03:02:43 »
20 июня на фейсбуке была опубликована новая бета-версия программы WGS Extract. Теперь можно генерировать комбинированный файл исходных данных "из коробки".
Ну надо же, как я поторопился :) еще в мае склепал своим самопалом, что оказалось немного зануднее, чем я надеялся. Да, к похожим выводам с фтДНК и я пришел в ходе этого сравнения - что примерно 1% маркеров имеют разные генотипы между данныи фтДНК и Данте, и что в основном это связано с тем, что лажает фтДНК. Больше всего таких различий, когда Данте утверждает, что оба аллеля wildtype, а familytreeDNA - что оба аллеля нестандартные. Мне показалось совершенно невероятным, что в таком количестве маркеров секвенирование имело бы нулевое покрытие, и вообще пропустило бы гомозиготный геноптип, но специально в БАМ-файл я не лазил.
Все-таки выяснилось, что я валил на фтДНК лишнего и часть несоответствий между моим самопальным экстрагированием генотипа из VCF-файлов Данте было связано или с моей собственной конверсией, или с проблемами при создании VCF файла.

Конвертированный файл от WGSExtract содержал гораздо меньше пропущенных генотипов ( 1149 ). Из несоответствий между генотипами от Данте и от фтДНК, еще 14170 были пропущены у фтДНК.

В 489 маркерах разночтение заключалось в том, что фтДНК нашла больше wildtype аллелей, чем Данте: 218 генотипов фтДНК назвала только wildtype/wildtype, а Данте нашла вариантный аллель; еще в 271 случае фтДНК "увидела" гетерозиготный генотип, а согласно Данте это была гомозигота.

Заметно больше (2674) было несоответствий, когда фтДНК "увидела" больше вариантных аллелей, чем Данте:

1572 случая, когда Данте указывает на wildtype/wildtype, а фтДНК видит гетерозиготу, и 1102 - когда Данте видит 1 или 2 wildtype аллеля, а фтДНК - чистую гомозиготу.

Кто тут прав или неправ, так сходу не скажешь. Но можно посмотреть, хорошее ли покрытие спорных маркеров у Данте, и также можно сравнить с "третейским арбитром" (посмотреть, что видно по спорным позициям у 23andMe)
=====
Upd:  Подавляющая причина дополнительных разночтений в моей самопальной конверсии - в том, что для примерно 0.5% маркеров я не нашел строку в VCF файле с этими позициями, и сделал вывод, что генотип wildtype/wildtype. В то время как WGS extract пришла к другому выводу. С чем связано отсутствие результатов поиска в VCF файле, не разбирался пока, но возможна одна из 2-х проблем: или в этих местах слабое покрытие или низкое качество, и Данте проигнорировало эти позиции при создании VCF-файла, или в этой позиции определился не просто СНИП, а двух- или более нуклеотидное изменение, и Данте поставило соседнюю позицию в VCF-файл.

В общем, в моей самапалке 1% генотипов разошлись, а вот у WGS extract расхождений вдвое меньше.


« Последнее редактирование: 09 Октябрь 2019, 03:23:29 от MCB »

Оффлайн MCB

  • Сообщений: 26
  • Страна: 00
  • Рейтинг +16/-0
Re: Программа WGS Extract
« Ответ #470 : 09 Октябрь 2019, 05:24:25 »
также можно сравнить с "третейским арбитром" (посмотреть, что видно по спорным позициям у 23andMe).
В общем, заодно решил сравнить и с 23andMe. Первый сюрприз - то, что WGS extract пропустил 4861 из 5079 позиций в мтДНК. Как я припоминаю, дело в том, что референтная последовательность у Данте не совсем стандартная, где-то начинает отличаться на нуклеотид? А исправленного reference-файла для экстрактора ни у кого нет?

Различий между моим старым файлом от 23andMe (версии 3) и Данте оказалось на удивление много, 34 тысячи (5%). Файл от 23andMe содержал много гомозиготных генотипов, которые в соответствии с данными Данте были гетерозиготными, и гетерозиготных генотипов, которые в соответсвии с данными Данте были гомозиготными. Расхождения в генотипах wildtype/wildtype согласно 23andMe были очень редкими.

2118 маркеров расходились по генотипу от данных Данте и у фтДНК, и 23andMe (версии 3). Во всех без исключения из этих случаев чипы были на 100% в согласии друг с другом! Как явствует из предыдущего ссобщение, эта цифра близка к общему количеству расхождений между Данте и фтДНК. Так что в большинстве случаев оказалось, что фтДНК и Данте не соглашались по тому или иному маркеру, то чип 23andMe (версии 3) брал сторону фтДНК.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 34613
  • Страна: ca
  • Рейтинг +2950/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #471 : 09 Октябрь 2019, 05:45:09 »
С точностью до наоборот.

:)

У 23эндМи - не полный митосиквенс.
И даже не HVR1 + HVR2, а своя кучка выбранных позиций.

Не совсем понятен смысл Ваших действий. Но то, что разбираетесь самостоятельно - заслуживает уважения. Даже несмотря на ошибочность и легковесность выводов.

::)

Оффлайн MCB

  • Сообщений: 26
  • Страна: 00
  • Рейтинг +16/-0
Re: Компания Dante Labs
« Ответ #472 : 09 Октябрь 2019, 07:22:29 »
Спасибо на добром слове :) Смысл был что я надеялся, что умудренные эксперты подскажут, как определить, кому надо доверять, когда разные компании со своими разными методами не согласны насчет генотипов. И как вообще варьирует качество анализов в пределах одной и той же технологии. Как я уже пару раз тут объяснил, меня волнуют редкие варианты в аутосомах на предмет датировки времени происхождения совпадающих сегментов, а для сравнения редких вариантов качество критично.

И еще, как подправить референс, чтобы экстрактор опознал снипы на мтДНК. Не то что я сам не разберусь, но неохота изобретать слишком много велосипедов (что 23andMe это чип, а не секвенирование, и только по примерно 5000 позиций в мтДНК, я уже отметил, но все равно спасибо за повторное разъяснение)

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5237
  • Страна: hr
  • Рейтинг +2504/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Компания Dante Labs
« Ответ #473 : 09 Октябрь 2019, 07:51:02 »
Спасибо на добром слове :) Смысл был что я надеялся, что умудренные эксперты подскажут, как определить, кому надо доверять, когда разные компании со своими разными методами не согласны насчет генотипов. И как вообще варьирует качество анализов в пределах одной и той же технологии. Как я уже пару раз тут объяснил, меня волнуют редкие варианты в аутосомах на предмет датировки времени происхождения совпадающих сегментов, а для сравнения редких вариантов качество критично.

И еще, как подправить референс, чтобы экстрактор опознал снипы на мтДНК. Не то что я сам не разберусь, но неохота изобретать слишком много велосипедов (что 23andMe это чип, а не секвенирование, и только по примерно 5000 позиций в мтДНК, я уже отметил, но все равно спасибо за повторное разъяснение)
Вы работаете с самтулз. Посмотрите на bash скриптик extract23 от Томаса Крана. Можете заодно по нему сверить свой алгоритм с общепринятым.
Библиотека со снипами в рефе hg19. Заменить на hg38 не проблема, я когда-то писал ее для Томаса, могу поискать.

FTDNA и 23&me не застрахованы от ошибок - определенный процент точно есть. Но у Dante короткая длина чтения, что обычно критично для выравнивания. И это тоже вызывает ошибки. Для выявления кто прав, я бы смотрел спорные позиции непосредственно в бам файле.

Реф мито без перемаппирования не подправить. Разные позиции. Только писать конвертер на основании правил, на которые выше я давал ссылку.

PS На досуге тоже хочу сравнить свои результаты от FTDNA и 23&me. Помнится что гедматч ругался на файл от FTDNA.

Оффлайн MCB

  • Сообщений: 26
  • Страна: 00
  • Рейтинг +16/-0
Re: Компания Dante Labs
« Ответ #474 : 09 Октябрь 2019, 19:09:20 »
самтулз. Посмотрите на bash скриптик extract23 от Томаса Крана.

... у Dante короткая длина чтения, что обычно критично для выравнивания. И это тоже вызывает ошибки. Для выявления кто прав, я бы смотрел спорные позиции непосредственно в бам файле.
Нет, на самом деле когда я занимался конверсией для закрузки в майхеритидж, то у нас еще не было ни одного бам-файла. Я просто подставлял для тех маркеров,которые отсутствовали в VCF, значения wildtype/wildtype. Ну и еще добавил три СНИПа в конце файла фтДНК, которые картируются и на Х, и на Y и могут служить для определения пола, фейковые значения длы "нужного" пола.

Скрипт создает отличный VCF файл с помощью bcftools с флагом -m. Но, конечно, да, alignment, выше себя не прыгнешь. Мы нередко имеем дело с проблемами, когда маркер работает на чипе, но из-за неодонозначностей выравнивания не работает в секвенировании. Как правило, или вообще рид картируется не оттуда, и маркер "оказывается" мономорфным или почти мономорфным, или происходит наложение двух схожих участков в геноме, и маркер "получается" гетерозиготным во всех образцах. Самый удобный контроль над качеством для таких проблем - это сравнить частоты аллелей с табличными и проверить на Харди-Вайнберга. Но для этого надо иметь довольно большой набор образцов. С одним-то образцом тут не разбежишься...

А насчет мтДНК, меня подмывает просто подождать и посмотреть, как у вас на Yfull это переварится ))) Есть и фаста-файлы, загружу, когда наконец счет придет ))

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5237
  • Страна: hr
  • Рейтинг +2504/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Компания Dante Labs
« Ответ #475 : 09 Октябрь 2019, 22:36:01 »
А насчет мтДНК, меня подмывает просто подождать и посмотреть, как у вас на Yfull это переварится ))) Есть и фаста-файлы, загружу, когда наконец счет придет ))
YFull с определенного времени перемаппирует мито по своим алгоритмам и по своему рефу.

Цитировать
Скрипт создает отличный VCF файл с помощью bcftools с флагом -m.
Вы правильно подметили этот флаг. Но на самом деле у чипа существует множество проблем. Самые известные - участки с высокой гомологией и участки со сложными инделами. В этих случаях даже Dante дает более точный результат.
У NGS основная проблема - "грязные" регионы, STR подобные регионы и области рядом с инделами.

Если честно, то необходимо принимать во внимание множество параметров, пытаясь найти решение возможных конфликтов. Из важных параметров: длина чтения, инструменты и реф выравнивания, гомология, палиндромность и тп и тд....

Оффлайн mdn

  • Сообщений: 65
  • Страна: fi
  • Рейтинг +11/-0
  • Y-ДНК: R-M198
  • мтДНК: R1a1a1
Re: Компания Dante Labs
« Ответ #476 : 12 Октябрь 2019, 16:18:48 »
У Dante Labs акция - все новые заказы со сроком исполнения "2 недели". Возможности выбрать "8 недель" просто нет. Что это значит и какой будет в действительности срок - не знаю. :)
Заказал intro 4x за 99 евро (для мито и аутосом ребенка - у них вроде нет запрета на детей), посмотрю реальные сроки.

"Get 2 weeks turnaround time for the price of 8 weeks [Limited time offer]"

Оффлайн NathanS

  • Сообщений: 140
  • Рейтинг +94/-1
  • Y-ДНК: ЖМ: N1c-Z1939
Re: Компания Dante Labs
« Ответ #477 : 12 Октябрь 2019, 18:18:50 »
У Dante Labs акция - все новые заказы со сроком исполнения "2 недели". Возможности выбрать "8 недель" просто нет. Что это значит и какой будет в действительности срок - не знаю. :)
Заказал intro 4x за 99 евро (для мито и аутосом ребенка - у них вроде нет запрета на детей), посмотрю реальные сроки.

"Get 2 weeks turnaround time for the price of 8 weeks [Limited time offer]"

У них есть обьявление в блоге: Now You Can Get Your Whole Genome Sequenced in Only 2 Weeks With Dante Labs https://www.dantelabs.com/blogs/news/now-you-can-get-your-whole-genome-sequenced-in-only-2-weeks-with-dante-labs?fbclid=IwAR1g1xuXNn6s7VyDm19iVwEaNjvXk_imC6UxYsRAVm0xoLlx3IS3oAHT9sU:
Цитировать
OCT 10, 2019
LONDON -- Dante Labs announced today the official launch of its premium 2-week turnaround time for its whole genome sequencing tests. [...] Dante Labs offers reports and raw data within two weeks from receiving the sample back.

The new service is possible thanks to the new Illumina-backed, high-throughput, automated sequencing centre that Dante Labs built in Italy, fully dedicated to the classical Whole Genome and the WholeGenomeZ™ sequencing tests.

Данте Лабс официально обьявила о 2-х недельной обработке полногеномных тестов. Данте Лабс предлагает отчеты и сырые данные в течение 2-х недель с момента получения образца. Новая услуга стала возможной благодаря новому автоматизированному центру, построенному Данте Лабс в Италии для полногеномных тестов.
Поскольку предложение ограничено во времени, то через некоторое время они вернут разницу в ценах для 2-х недельной и 8-ми недельной обработки образцов. Посмотрим как они справятся, а то у меня один сентябрьский образец месяц висел на контроле качества и только вот вчера или сегодня ушел на секвенирование.
« Последнее редактирование: 12 Октябрь 2019, 20:55:15 от NathanS »

Оффлайн sergm

  • Сообщений: 60
  • Страна: ua
  • Рейтинг +313/-0
  • Y-ДНК: R-Y17488
  • мтДНК: HV-T16311C!
Re: Компания Dante Labs
« Ответ #478 : 12 Октябрь 2019, 22:19:16 »
Сентябрьский :)
У меня с мая висит на контроле качества, наверное, пора уже писать в поддержку...

Оффлайн MCB

  • Сообщений: 26
  • Страна: 00
  • Рейтинг +16/-0
Re: Компания Dante Labs
« Ответ #479 : 13 Октябрь 2019, 23:01:11 »
самтулз. Посмотрите на bash скриптик extract23 от Томаса Крана.

... у Dante короткая длина чтения, что обычно критично для выравнивания. И это тоже вызывает ошибки. Для выявления кто прав, я бы смотрел спорные позиции непосредственно в бам файле.
Нет, на самом деле когда я занимался конверсией для закрузки в майхеритидж, то у нас еще не было ни одного бам-файла. Я просто подставлял для тех маркеров,которые отсутствовали в VCF, значения wildtype/wildtype. Ну и еще добавил три СНИПа в конце файла фтДНК, которые картируются и на Х, и на Y и могут служить для определения пола, фейковые значения длы "нужного" пола.
Первый из СНП-профилей "стандартных форматов", сделанных с помощью WGS extract, обработан на мейхеритидж. Формат фтДНК. Несмотря на разницу в примерно 0.5% генотипов с сравнении с моей предудущей "самопальной" экстракцией (на основе VCF, а не БАМ), результаты для обоих экстракций одинаковые. С дальними родственниками совпадения те же до сентиморгана, а в этносоставе те же компоненты с различиями не более чем в 0.4%.

Для сравнения надо иметь в виду, что в "родном" файле от фтДНК, для трех тех же дальних родственников Майхеритидж показал заметно меньшие совпадения ( 249 вместо 256 сМ, 106 вместо 133 сМ, и 70 вместо 85 сМ). И проценты в этносоставе были другие, с отклонениями до 2%. Хотя количество различий в генотипах было примерно такое же (0.5% между WGS Extract и "родным" файлом, 1% между моей собственной экстракцией и "родным" файлом и вдобавок десятки тысяч пропущенных триаллельных маркеров).

Мои предварител;ные выводы по состоверности данных и по механизму сравнения в myHeritage:
1) триаллелики, похоже, алгоритм игнорит
2) СНИПы из "списка фтДНК", по которым идентификация вариантов в разных бейзколлерах дала разные результаты (VCF файл от Данте не содежал соотв. строк, но VCF-файл от WGS Extract показал минорные аллели) - видимо, неинформативные или ненадежные, и их генотипы не сказываются на предсказаниях myHeritage.
3) В общем и целом, Данте реже ошибается в геноптипах, чем чип фтДНК (если предположит. что "больше сентиморганов совпадений" - это правильно, и "более осмысленный этносостав" - тоже)

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.


Rambler's Top100