Тема: Компания Dante Labs (Прочитано 179980 раз)

Mich Glitch · « **Ответ #210 :** 06 Январь 2019, 18:47:28 »

Вот тут доложился по своим результатам в Данте Лабз.

Srkz · « **Ответ #211 :** 07 Январь 2019, 07:03:00 »

Цитата: Mich Glitch от 06 Январь 2019, 19:01:35

То есть, если данные ФТДНА и 23эндМи коррелируют друг с другом (тот же порядок популяций в десятке, с небольшими флюктуациями по дистанциям). То данные от Данте Лабз - явно кривые. Чудные популяции. Огромные дистанции.

Незачёт. $:-\$

Дело в том, что в файлах VCF исключены те снипы, где значения совпадают с референсом. Если бы Gedmatch Genesis их добавили, получилось бы близко к FTDNA/23andMe. Данте Лабз можно обвинить только в том, что не хотят предоставлять клиентам файл в нужном формате по умолчанию, но сами данные должны быть нормальными.

Mich Glitch · « **Ответ #212 :** 07 Январь 2019, 16:42:39 »

А в заголовках VCF файла указано, какой референс используется?

Хотя ещё проще спросить у Вас.

Не подскажите, какой референс использует Данте Лабз?

Mich Glitch · « **Ответ #213 :** 07 Январь 2019, 16:43:37 »

Или же совпадающие с референсом снипы исключает Генезис?

Mich Glitch · « **Ответ #214 :** 07 Январь 2019, 16:47:36 »

По любому, не пойму.

Допустим, снипы совпадающие с референтным исключает Данте Лабз.

Нахожу это несколько маловероятным, так как лаборатория ориентирована на медицину. Предполагается, что в отчёте должны присутствовать все снипы.

Вариант, когда обрезание делает Генезис, - нахожу более вероятным.

Тогда не ясно, почему отработка родства по УПСам и общему совпадению коррелирует с данными от ФТДНА и 23эндМи, а вот результаты этнокалькулятора нет.

Заранее благодарю за уточнения.

NathanS · « **Ответ #215 :** 07 Январь 2019, 17:14:32 »

Цитата: Mich Glitch от 07 Январь 2019, 16:42:39

Не подскажите, какой референс использует Данте Лабз?

ucsc.hg19/ucsc.hg19.fa http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/
Я посмотрел в BAM. В VCF тоже должно быть.

Mich Glitch · « **Ответ #216 :** 07 Январь 2019, 17:16:37 »

Спасибо!

Srkz · « **Ответ #217 :** 07 Январь 2019, 17:32:37 »

Цитата: Mich Glitch от 07 Январь 2019, 16:47:36

Допустим, снипы совпадающие с референтным исключает Данте Лабз.
Нахожу это несколько маловероятным, так как лаборатория ориентирована на медицину. Предполагается, что в отчёте должны присутствовать все снипы.
Вариант, когда обрезание делает Генезис, - нахожу более вероятным.

Это особенность самого формата VCF, сделано для экономии места. Поэтому файл такой небольшой по сравнению с BAM. В исходном сиквенсе большинство снипов имеется, соответственно попадает в медицинские отчёты и прочее. Если в VCF нет упоминания снипа, значит, либо он совпадает с референсом, либо не прочитан. На поиск общих сегментов их отсутствие влияет мало, тут особых проблем нет.

Mich Glitch · « **Ответ #218 :** 07 Январь 2019, 17:44:55 »

Спасибо.
Всё равно не очень понял, почему оценка родства при таких раскладах работает, а этнокалькуляторы нет.
Но выношу это за скобки.
Ведь моя сентенция "незачёт" означает лишь только то, что данные от Данте Лабз нельзя использовать ПРОСТОМУ ПОЛЬЗОВАТЕЛЮ для этнотестов.
Начальный вопрос звучал так: насколько хороши результаты от Данте Лабз в качестве эконом-альтернативы полномасштабному тестированию.
Вот и выяснили, что родство через Генезис смотреть можно. Этнокалькуляторы через Генезис использовать нельзя. Вопрос с игрек-хромосомой пока подвис.

Mich Glitch · « **Ответ #219 :** 07 Январь 2019, 17:52:20 »

Да. Напомнюсь.
В листе родичей сначала идут полногеномники.
Затем мама-сестра-дочь.
Потом архаичные полногеномники (австрало-абригены).
И только после этого, простые люди.

Надеюсь на следующее:

1. Генезис начнёт сравнивать полногеномные образцы.
2. Генезис начнёт использовать полногеномные калькуляторы.

Второго пункта придётся ждать дольше. Так как он предполагает накопление сравнительной базы. Именно полногеномных референтных образцов по разным популяциям.

*** Пока суть, да дело, постараюсь воткнуть свой VCF файл в другие сервисы. В ДНАлэнд, там. Или Гени какую.
Может быть Сергей, или Натан подскажут адресатов?

Здоровье и медицина не интересуют.

Ну, и файлом своим поделиться могу.

Mich Glitch · « **Ответ #220 :** 07 Январь 2019, 17:53:56 »

Вот мой образец в Генезис: TF6468610 Michael Temosh (Dante Labs).

NathanS · « **Ответ #221 :** 07 Январь 2019, 18:28:50 »

Цитата: Srkz от 07 Январь 2019, 07:03:00

Цитата: Mich Glitch от 06 Январь 2019, 19:01:35
То есть, если данные ФТДНА и 23эндМи коррелируют друг с другом (тот же порядок популяций в десятке, с небольшими флюктуациями по дистанциям). То данные от Данте Лабз - явно кривые. Чудные популяции. Огромные дистанции.

Незачёт. $:-\$
Дело в том, что в файлах VCF исключены те снипы, где значения совпадают с референсом. Если бы Gedmatch Genesis их добавили, получилось бы близко к FTDNA/23andMe. Данте Лабз можно обвинить только в том, что не хотят предоставлять клиентам файл в нужном формате по умолчанию, но сами данные должны быть нормальными.

https://en.wikipedia.org/wiki/Variant_Call_Format - VCF и был задуман так, чтобы не передавать информацию, которая повторяется от генома к геному, а передавать только отличия от референса. Весь смысл в экономии места для хранения данных. Вот здесь ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/ можно найти VCF со всеми известными отличиями, снипами. Это даже не сам референс. Файл весит 15,2 гигов, а раззипованный он весит аж 131 гиг. VCF от Данте весит 1,2Г зипованный и 8Г раззипованный.
Мы конечно из BAMа можем сделать VCF хоть по всей последовательности ДНК, хоть по всем извесным снипам. Ну и вот грузим мы все это на Гедматч, каждый по 15 гигов, а потом это все на сервере обрабатывать, открывать зипованые файлы или индексировать их, чтобы на прямую читать, а потом в базу данных со сравнениями. Думаю, что бесплатным сервисом на Гедматч Вы тогда не обойдетесь - хранить и обрабатывать такой обьем данных будет стоит - нужны большие жесткие диски плюс мощность процессоров. Это же не результаты с ФТДНА или Анцестри размером в 6-7 Мб.

Тут проблемы, не у Данте, а у ГедМатча:
- где это все хранить, да так чтобы одновременно безопасно и удобно обрабатывать,
- мощность на обработку, а следовательно дорогой сервер,
- как все это обрабатывать, и сейчас эта проблема хорошо видна.
Их старый алгоритм не учитывает референса, а считает только совпадения по снипам в VCF. Результат - масса фальшивых совпадений, особенно с теми, кто тестировал только экзом и без малейшего понятия о том, что они тестировали, заливают все в Генезиз, а потом пишут мэйлы о совпадениях. Даже те, кто сделал полный геном, тоже дают фальшивые совпадения (проверено).
Опять же обьем данных. Не знаю сколько записей в том файле на 15 гигов, но есть файл поменьше на 1,5 гига - обычные снипы, т.е. встречаются у более 1% населения. Так только этот файл содержит 37,5 миллионов снипов. Спрашивается - как это все эффективно обработать для 100 000 пользователей, ну или хотя бы для 10 000? Не хранить и не создавать повторяющиеся снипы, да еще учесть переход с GRCh37/hg19 на GRCh38 с переменой мест некоротых последовательностей ДНК. Ну а в дополнение у нас еще и вебстраница должна работать.

Mich Glitch · « **Ответ #222 :** 07 Январь 2019, 18:43:18 »

И ещё раз спасибо за объяснения, Натан.
Ситуация стала более понятной.

*** ДНАлэнд VCF файл не принял.
Так же не удалось просмотреть файл с их фичей ДНАкомпасс. Так как требуют второй Tabix file (.tbi).

Mich Glitch · « **Ответ #223 :** 07 Январь 2019, 19:09:39 »

Ещё раз спасибо Натану.
Скинул свой VCF.

Обрисую свой основной интерес к полногеномному тестированию.

Хотелось бы иметь возможность попарного сравнения двух геномов. Основная цель: более точное определение родства на глубине 7-10 поколений. (Интуитивно полагаю, что глубже никак не прострелить. Учитывая множественные родственные пересечения и глубину генеалогического интервала.)

Vince Adams · « **Ответ #224 :** 07 Январь 2019, 19:44:07 »

Nathan, на самом деле задача хранения геномов в Gedmatch (по крайней мере сейчас) не представляется такой уж трудной. Например мои raw файлы из FTDNA и Ancestry имеют примерно по 700 000 снипов. Для их хранения в базе данных достаточно записать rs номер (4 байта) и 1 бит reference or not. В итоге это 3 МБ на одного человека и для 0,5 - 1 М пользователей Gedmatch получим макс 3 ТБ, что не очень много.
Задача сравнения конечно же сложнее. Я думаю они сначала сравнивают ограниченное количество снипов (скажем 10000) для всех, а затем для совпавших проверяют one-to-one чтобы получить окончательный результат.

Понятно что эти оценки неверны если мы попробуем обрабатывать все 5 миллионов известных нереференсных снипов (или 84 М всех снипов) - это будет и дороже и медленнее. Но Гедаматч этого не делает (он честно пишет "393825 SNPs used for this comparison.") и я думаю долго еще не будет сравнивать больше снипов поскольку >99% их фаилов усечены < 1 М снипов. Такая же ситуация и с калькуляторами - они настроены на ~500 000 SNP и выдают дурь если пытаться задать им больше из full genome sequence.

Несомненно результаты сравнения геномов будут точнее если мы прыгнем от 0,5М к 3М. Трудно сказать насколько точнее (и получим ли мы надежные результаты для Х поколений вместо 5 сейчас), но произойдет это наверное нескоро, ФГС все еще экзотика. К тому же существующие критерии (типа 233 cM = троюродный брат) возможно тоже будет необходимо подправить.

Я не претендую здесь на абсолютную истину, пусть знающие люди меня поправят

АвторТема: Компания Dante Labs (Прочитано 179980 раз)

Mich Glitch

Re: Компания Dante Labs

Srkz

Re: Компания Dante Labs

Mich Glitch

Re: Компания Dante Labs

Mich Glitch

Re: Компания Dante Labs

Mich Glitch

Re: Компания Dante Labs

NathanS

Re: Компания Dante Labs

Mich Glitch

Re: Компания Dante Labs

Srkz

Re: Компания Dante Labs

Mich Glitch

Re: Компания Dante Labs

Mich Glitch

Re: Компания Dante Labs

Mich Glitch

Re: Компания Dante Labs

NathanS

Re: Компания Dante Labs

Mich Glitch

Re: Компания Dante Labs

Mich Glitch

Re: Компания Dante Labs

Vince Adams

Re: Компания Dante Labs