АвторТема: Компания Dante Labs  (Прочитано 169148 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #210 : 06 Январь 2019, 18:47:28 »
Вот тут доложился по своим результатам в Данте Лабз.

Оффлайн Srkz

  • Сообщений: 8462
  • Страна: ru
  • Рейтинг +4813/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Re: Компания Dante Labs
« Ответ #211 : 07 Январь 2019, 07:03:00 »
То есть, если данные ФТДНА и 23эндМи коррелируют друг с другом (тот же порядок популяций в десятке, с небольшими флюктуациями по дистанциям). То данные от Данте Лабз - явно кривые. Чудные популяции. Огромные дистанции.

Незачёт.    :-\
Дело в том, что в файлах VCF исключены те снипы, где значения совпадают с референсом. Если бы Gedmatch Genesis их добавили, получилось бы близко к FTDNA/23andMe. Данте Лабз можно обвинить только в том, что не хотят предоставлять клиентам файл в нужном формате по умолчанию, но сами данные должны быть нормальными.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #212 : 07 Январь 2019, 16:42:39 »
А в заголовках VCF файла указано, какой референс используется?

Хотя ещё проще спросить у Вас.    :)

Не подскажите, какой референс использует Данте Лабз?

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #213 : 07 Январь 2019, 16:43:37 »
Или же совпадающие с референсом снипы исключает Генезис?

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #214 : 07 Январь 2019, 16:47:36 »
По любому, не пойму.

Допустим, снипы совпадающие с референтным исключает Данте Лабз.

Нахожу это несколько маловероятным, так как лаборатория ориентирована на медицину. Предполагается, что в отчёте должны присутствовать все снипы.


Вариант, когда обрезание делает Генезис, - нахожу более вероятным.

Тогда не ясно, почему отработка родства по УПСам и общему совпадению коррелирует с данными от ФТДНА и 23эндМи, а вот результаты этнокалькулятора нет.

???


Заранее благодарю за уточнения.   :)

Оффлайн NathanS

  • Сообщений: 1277
  • Страна: 00
  • Рейтинг +1202/-2
Re: Компания Dante Labs
« Ответ #215 : 07 Январь 2019, 17:14:32 »
Не подскажите, какой референс использует Данте Лабз?
ucsc.hg19/ucsc.hg19.fa http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/
Я посмотрел в BAM. В VCF тоже должно быть.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #216 : 07 Январь 2019, 17:16:37 »
Спасибо!

Оффлайн Srkz

  • Сообщений: 8462
  • Страна: ru
  • Рейтинг +4813/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Re: Компания Dante Labs
« Ответ #217 : 07 Январь 2019, 17:32:37 »
Допустим, снипы совпадающие с референтным исключает Данте Лабз.
Нахожу это несколько маловероятным, так как лаборатория ориентирована на медицину. Предполагается, что в отчёте должны присутствовать все снипы.
Вариант, когда обрезание делает Генезис, - нахожу более вероятным.
Это особенность самого формата VCF, сделано для экономии места. Поэтому файл такой небольшой по сравнению с BAM. В исходном сиквенсе большинство снипов имеется, соответственно попадает в медицинские отчёты и прочее. Если в VCF нет упоминания снипа, значит, либо он совпадает с референсом, либо не прочитан. На поиск общих сегментов их отсутствие влияет мало, тут особых проблем нет.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #218 : 07 Январь 2019, 17:44:55 »
Спасибо.
Всё равно не очень понял, почему оценка родства при таких раскладах работает, а этнокалькуляторы нет.
Но выношу это за скобки.
Ведь моя сентенция "незачёт" означает лишь только то, что данные от Данте Лабз нельзя использовать ПРОСТОМУ ПОЛЬЗОВАТЕЛЮ для этнотестов.
Начальный вопрос звучал так: насколько хороши результаты от Данте Лабз в качестве эконом-альтернативы полномасштабному тестированию.
Вот и выяснили, что родство через Генезис смотреть можно. Этнокалькуляторы через Генезис использовать нельзя. Вопрос с игрек-хромосомой пока подвис.

:)

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #219 : 07 Январь 2019, 17:52:20 »
Да. Напомнюсь.
В листе родичей сначала идут полногеномники.
Затем мама-сестра-дочь.
Потом архаичные полногеномники (австрало-абригены).
И только после этого, простые люди.

Надеюсь на следующее:

1. Генезис начнёт сравнивать полногеномные образцы.
2. Генезис начнёт использовать полногеномные калькуляторы.

Второго пункта придётся ждать дольше. Так как он предполагает накопление сравнительной базы. Именно полногеномных референтных образцов по разным популяциям.


*** Пока суть, да дело, постараюсь воткнуть свой VCF файл в другие сервисы. В ДНАлэнд, там. Или Гени какую.
Может быть Сергей, или Натан подскажут адресатов?    ::)
Здоровье и медицина не интересуют.

Ну, и файлом своим поделиться могу.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #220 : 07 Январь 2019, 17:53:56 »
Вот мой образец в Генезис: TF6468610   Michael Temosh (Dante Labs).

Оффлайн NathanS

  • Сообщений: 1277
  • Страна: 00
  • Рейтинг +1202/-2
Re: Компания Dante Labs
« Ответ #221 : 07 Январь 2019, 18:28:50 »
То есть, если данные ФТДНА и 23эндМи коррелируют друг с другом (тот же порядок популяций в десятке, с небольшими флюктуациями по дистанциям). То данные от Данте Лабз - явно кривые. Чудные популяции. Огромные дистанции.

Незачёт.    :-\
Дело в том, что в файлах VCF исключены те снипы, где значения совпадают с референсом. Если бы Gedmatch Genesis их добавили, получилось бы близко к FTDNA/23andMe. Данте Лабз можно обвинить только в том, что не хотят предоставлять клиентам файл в нужном формате по умолчанию, но сами данные должны быть нормальными.

https://en.wikipedia.org/wiki/Variant_Call_Format - VCF и был задуман так, чтобы не передавать информацию, которая повторяется от генома к геному, а передавать только отличия от референса. Весь смысл в экономии места для хранения данных. Вот здесь ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/ можно найти VCF со всеми известными отличиями, снипами. Это даже не сам референс. Файл весит 15,2 гигов, а раззипованный он весит аж 131 гиг. VCF от Данте весит 1,2Г зипованный и 8Г раззипованный.
Мы конечно из BAMа можем сделать VCF хоть по всей последовательности ДНК, хоть по всем извесным снипам. Ну и вот грузим мы все это на Гедматч, каждый по 15 гигов, а потом это все на сервере обрабатывать, открывать зипованые файлы или индексировать их, чтобы на прямую читать, а потом в базу данных со сравнениями. Думаю, что бесплатным сервисом на Гедматч Вы тогда не обойдетесь - хранить и обрабатывать такой обьем данных будет стоит - нужны большие жесткие диски плюс мощность процессоров. Это же не результаты с ФТДНА или Анцестри размером в 6-7 Мб.

Тут проблемы, не у Данте, а у ГедМатча:
- где это все хранить, да так чтобы одновременно безопасно и удобно обрабатывать,
- мощность на обработку, а следовательно дорогой сервер,
- как все это обрабатывать, и сейчас эта проблема хорошо видна.
Их старый алгоритм не учитывает референса, а считает только совпадения по снипам в VCF. Результат - масса фальшивых совпадений, особенно с теми, кто тестировал только экзом и без малейшего понятия о том, что они тестировали, заливают все в Генезиз, а потом пишут мэйлы о совпадениях. Даже те, кто сделал полный геном, тоже дают фальшивые совпадения (проверено).
Опять же обьем данных. Не знаю сколько записей в том файле на 15 гигов, но есть файл поменьше на 1,5 гига - обычные снипы, т.е. встречаются у более 1% населения. Так только этот файл содержит 37,5 миллионов снипов. Спрашивается - как это все эффективно обработать для 100 000 пользователей, ну или хотя бы для 10 000? Не хранить и не создавать повторяющиеся снипы, да еще учесть переход с GRCh37/hg19 на GRCh38 с переменой мест некоротых последовательностей ДНК. Ну а в дополнение у нас еще и вебстраница должна работать.
« Последнее редактирование: 07 Январь 2019, 18:38:56 от NathanS »

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #222 : 07 Январь 2019, 18:43:18 »
И ещё раз спасибо за объяснения, Натан.
Ситуация стала более понятной.


*** ДНАлэнд VCF файл не принял.
Так же не удалось просмотреть файл с их фичей ДНАкомпасс. Так как требуют второй Tabix file (.tbi).

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #223 : 07 Январь 2019, 19:09:39 »
Ещё раз спасибо Натану.
Скинул свой VCF.

Обрисую свой основной интерес к полногеномному тестированию.

Хотелось бы иметь возможность попарного сравнения двух геномов. Основная цель: более точное определение родства на глубине 7-10 поколений. (Интуитивно полагаю, что глубже никак не прострелить. Учитывая множественные родственные пересечения и глубину генеалогического интервала.)

Оффлайн Vince Adams

  • Сообщений: 101
  • Страна: ca
  • Рейтинг +35/-0
  • Y-ДНК: CTS3402
Re: Компания Dante Labs
« Ответ #224 : 07 Январь 2019, 19:44:07 »
Nathan,  на самом деле задача хранения геномов в Gedmatch (по крайней мере сейчас) не представляется такой уж трудной. Например мои raw файлы из FTDNA и Ancestry имеют примерно по 700 000 снипов. Для их хранения в базе данных достаточно записать rs номер (4 байта) и 1 бит reference or not. В итоге это 3 МБ на одного человека и для 0,5 -  1 М пользователей Gedmatch получим макс 3 ТБ, что не очень много.
Задача сравнения конечно же сложнее. Я думаю они сначала сравнивают ограниченное количество снипов (скажем 10000) для всех, а затем для совпавших проверяют one-to-one чтобы получить окончательный результат.

Понятно что эти оценки неверны если мы попробуем обрабатывать все 5 миллионов известных нереференсных снипов (или 84 М всех снипов) - это будет и дороже и медленнее. Но Гедаматч этого не делает (он честно пишет "393825 SNPs used for this comparison.")  и я думаю долго еще не будет сравнивать больше снипов поскольку >99% их фаилов усечены < 1 М снипов. Такая же ситуация и с калькуляторами - они настроены на  ~500 000 SNP и выдают дурь если пытаться задать им больше из full genome sequence.

Несомненно
результаты сравнения геномов будут точнее если мы прыгнем от 0,5М к 3М. Трудно сказать насколько точнее (и получим ли мы надежные результаты для Х поколений вместо 5 сейчас), но произойдет это наверное нескоро, ФГС все еще экзотика. К тому же существующие критерии (типа 233 cM = троюродный брат) возможно тоже будет необходимо подправить.

Я не претендую здесь на абсолютную истину, пусть знающие люди меня поправят  ;)

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.