АвторТема: Компания Dante Labs  (Прочитано 26843 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 34635
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #225 : 07 Январь 2019, 16:43:37 »
Или же совпадающие с референсом снипы исключает Генезис?

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 34635
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #226 : 07 Январь 2019, 16:47:36 »
По любому, не пойму.

Допустим, снипы совпадающие с референтным исключает Данте Лабз.

Нахожу это несколько маловероятным, так как лаборатория ориентирована на медицину. Предполагается, что в отчёте должны присутствовать все снипы.


Вариант, когда обрезание делает Генезис, - нахожу более вероятным.

Тогда не ясно, почему отработка родства по УПСам и общему совпадению коррелирует с данными от ФТДНА и 23эндМи, а вот результаты этнокалькулятора нет.

???


Заранее благодарю за уточнения.   :)

Оффлайн NathanS

  • Сообщений: 142
  • Рейтинг +97/-1
  • Y-ДНК: ЖМ: N1c-Z1939
Re: Компания Dante Labs
« Ответ #227 : 07 Январь 2019, 17:14:32 »
Не подскажите, какой референс использует Данте Лабз?
ucsc.hg19/ucsc.hg19.fa http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/
Я посмотрел в BAM. В VCF тоже должно быть.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 34635
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #228 : 07 Январь 2019, 17:16:37 »
Спасибо!

Оффлайн Srkz

  • Сообщений: 5434
  • Страна: ru
  • Рейтинг +2199/-2
  • Y-ДНК: N-L1025*
  • мтДНК: U4a1e-pre T16093C T16311T
Re: Компания Dante Labs
« Ответ #229 : 07 Январь 2019, 17:32:37 »
Допустим, снипы совпадающие с референтным исключает Данте Лабз.
Нахожу это несколько маловероятным, так как лаборатория ориентирована на медицину. Предполагается, что в отчёте должны присутствовать все снипы.
Вариант, когда обрезание делает Генезис, - нахожу более вероятным.
Это особенность самого формата VCF, сделано для экономии места. Поэтому файл такой небольшой по сравнению с BAM. В исходном сиквенсе большинство снипов имеется, соответственно попадает в медицинские отчёты и прочее. Если в VCF нет упоминания снипа, значит, либо он совпадает с референсом, либо не прочитан. На поиск общих сегментов их отсутствие влияет мало, тут особых проблем нет.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 34635
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #230 : 07 Январь 2019, 17:44:55 »
Спасибо.
Всё равно не очень понял, почему оценка родства при таких раскладах работает, а этнокалькуляторы нет.
Но выношу это за скобки.
Ведь моя сентенция "незачёт" означает лишь только то, что данные от Данте Лабз нельзя использовать ПРОСТОМУ ПОЛЬЗОВАТЕЛЮ для этнотестов.
Начальный вопрос звучал так: насколько хороши результаты от Данте Лабз в качестве эконом-альтернативы полномасштабному тестированию.
Вот и выяснили, что родство через Генезис смотреть можно. Этнокалькуляторы через Генезис использовать нельзя. Вопрос с игрек-хромосомой пока подвис.

:)

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 34635
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #231 : 07 Январь 2019, 17:52:20 »
Да. Напомнюсь.
В листе родичей сначала идут полногеномники.
Затем мама-сестра-дочь.
Потом архаичные полногеномники (австрало-абригены).
И только после этого, простые люди.

Надеюсь на следующее:

1. Генезис начнёт сравнивать полногеномные образцы.
2. Генезис начнёт использовать полногеномные калькуляторы.

Второго пункта придётся ждать дольше. Так как он предполагает накопление сравнительной базы. Именно полногеномных референтных образцов по разным популяциям.


*** Пока суть, да дело, постараюсь воткнуть свой VCF файл в другие сервисы. В ДНАлэнд, там. Или Гени какую.
Может быть Сергей, или Натан подскажут адресатов?    ::)
Здоровье и медицина не интересуют.

Ну, и файлом своим поделиться могу.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 34635
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #232 : 07 Январь 2019, 17:53:56 »
Вот мой образец в Генезис: TF6468610   Michael Temosh (Dante Labs).

Оффлайн NathanS

  • Сообщений: 142
  • Рейтинг +97/-1
  • Y-ДНК: ЖМ: N1c-Z1939
Re: Компания Dante Labs
« Ответ #233 : 07 Январь 2019, 18:28:50 »
То есть, если данные ФТДНА и 23эндМи коррелируют друг с другом (тот же порядок популяций в десятке, с небольшими флюктуациями по дистанциям). То данные от Данте Лабз - явно кривые. Чудные популяции. Огромные дистанции.

Незачёт.    :-\
Дело в том, что в файлах VCF исключены те снипы, где значения совпадают с референсом. Если бы Gedmatch Genesis их добавили, получилось бы близко к FTDNA/23andMe. Данте Лабз можно обвинить только в том, что не хотят предоставлять клиентам файл в нужном формате по умолчанию, но сами данные должны быть нормальными.

https://en.wikipedia.org/wiki/Variant_Call_Format - VCF и был задуман так, чтобы не передавать информацию, которая повторяется от генома к геному, а передавать только отличия от референса. Весь смысл в экономии места для хранения данных. Вот здесь ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/ можно найти VCF со всеми известными отличиями, снипами. Это даже не сам референс. Файл весит 15,2 гигов, а раззипованный он весит аж 131 гиг. VCF от Данте весит 1,2Г зипованный и 8Г раззипованный.
Мы конечно из BAMа можем сделать VCF хоть по всей последовательности ДНК, хоть по всем извесным снипам. Ну и вот грузим мы все это на Гедматч, каждый по 15 гигов, а потом это все на сервере обрабатывать, открывать зипованые файлы или индексировать их, чтобы на прямую читать, а потом в базу данных со сравнениями. Думаю, что бесплатным сервисом на Гедматч Вы тогда не обойдетесь - хранить и обрабатывать такой обьем данных будет стоит - нужны большие жесткие диски плюс мощность процессоров. Это же не результаты с ФТДНА или Анцестри размером в 6-7 Мб.

Тут проблемы, не у Данте, а у ГедМатча:
- где это все хранить, да так чтобы одновременно безопасно и удобно обрабатывать,
- мощность на обработку, а следовательно дорогой сервер,
- как все это обрабатывать, и сейчас эта проблема хорошо видна.
Их старый алгоритм не учитывает референса, а считает только совпадения по снипам в VCF. Результат - масса фальшивых совпадений, особенно с теми, кто тестировал только экзом и без малейшего понятия о том, что они тестировали, заливают все в Генезиз, а потом пишут мэйлы о совпадениях. Даже те, кто сделал полный геном, тоже дают фальшивые совпадения (проверено).
Опять же обьем данных. Не знаю сколько записей в том файле на 15 гигов, но есть файл поменьше на 1,5 гига - обычные снипы, т.е. встречаются у более 1% населения. Так только этот файл содержит 37,5 миллионов снипов. Спрашивается - как это все эффективно обработать для 100 000 пользователей, ну или хотя бы для 10 000? Не хранить и не создавать повторяющиеся снипы, да еще учесть переход с GRCh37/hg19 на GRCh38 с переменой мест некоротых последовательностей ДНК. Ну а в дополнение у нас еще и вебстраница должна работать.
« Последнее редактирование: 07 Январь 2019, 18:38:56 от NathanS »

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 34635
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #234 : 07 Январь 2019, 18:43:18 »
И ещё раз спасибо за объяснения, Натан.
Ситуация стала более понятной.


*** ДНАлэнд VCF файл не принял.
Так же не удалось просмотреть файл с их фичей ДНАкомпасс. Так как требуют второй Tabix file (.tbi).

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 34635
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #235 : 07 Январь 2019, 19:09:39 »
Ещё раз спасибо Натану.
Скинул свой VCF.

Обрисую свой основной интерес к полногеномному тестированию.

Хотелось бы иметь возможность попарного сравнения двух геномов. Основная цель: более точное определение родства на глубине 7-10 поколений. (Интуитивно полагаю, что глубже никак не прострелить. Учитывая множественные родственные пересечения и глубину генеалогического интервала.)

Оффлайн Vince Adams

  • Сообщений: 106
  • Страна: ca
  • Рейтинг +35/-0
  • Y-ДНК: CTS3402
Re: Компания Dante Labs
« Ответ #236 : 07 Январь 2019, 19:44:07 »
Nathan,  на самом деле задача хранения геномов в Gedmatch (по крайней мере сейчас) не представляется такой уж трудной. Например мои raw файлы из FTDNA и Ancestry имеют примерно по 700 000 снипов. Для их хранения в базе данных достаточно записать rs номер (4 байта) и 1 бит reference or not. В итоге это 3 МБ на одного человека и для 0,5 -  1 М пользователей Gedmatch получим макс 3 ТБ, что не очень много.
Задача сравнения конечно же сложнее. Я думаю они сначала сравнивают ограниченное количество снипов (скажем 10000) для всех, а затем для совпавших проверяют one-to-one чтобы получить окончательный результат.

Понятно что эти оценки неверны если мы попробуем обрабатывать все 5 миллионов известных нереференсных снипов (или 84 М всех снипов) - это будет и дороже и медленнее. Но Гедаматч этого не делает (он честно пишет "393825 SNPs used for this comparison.")  и я думаю долго еще не будет сравнивать больше снипов поскольку >99% их фаилов усечены < 1 М снипов. Такая же ситуация и с калькуляторами - они настроены на  ~500 000 SNP и выдают дурь если пытаться задать им больше из full genome sequence.

Несомненно
результаты сравнения геномов будут точнее если мы прыгнем от 0,5М к 3М. Трудно сказать насколько точнее (и получим ли мы надежные результаты для Х поколений вместо 5 сейчас), но произойдет это наверное нескоро, ФГС все еще экзотика. К тому же существующие критерии (типа 233 cM = троюродный брат) возможно тоже будет необходимо подправить.

Я не претендую здесь на абсолютную истину, пусть знающие люди меня поправят  ;)

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 34635
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #237 : 07 Январь 2019, 19:49:07 »
Спасибо Натану за Tabix file (.tbi)!

Сейчас повожусь с генеалогической базой (получил информацию по нескольким линиям: первая и вторая).

А потом доложу о своих опытах с ДНАкомпасс.


:)

Оффлайн Srkz

  • Сообщений: 5434
  • Страна: ru
  • Рейтинг +2199/-2
  • Y-ДНК: N-L1025*
  • мтДНК: U4a1e-pre T16093C T16311T
Re: Компания Dante Labs
« Ответ #238 : 07 Январь 2019, 20:08:44 »
Тут проблемы, не у Данте
Я о том, что Данте могли бы выдавать пользователям файл в формате FTDNA или 23andMe с соответствующим набором снипов. Восстанавливать его на основе VCF это несколько хуже.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 34635
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #239 : 07 Январь 2019, 20:11:37 »
Есть люди, которые что ни скажут, так глупость. Свят, свят с ними нет пересекаюсь.     :-X
(Да и как можно пересечься с безродным виртуальным фантазёром!)

Дабы не терять времени на ликбез не желающих и не способных что-то понять, просто процитирую своё сообщение к умному человеку:

Спасибо. Может пригодится для какого-то сравнения. Про 7-10 поколений интересно, но надо статистически обосновать.


Речь идёт об умозрительных, красивых цифрах.

Ход мысли следующий.
Уже сейчас до 4.5-юродного родства включительно определение идёт точно.
Затем начинаются множественные родственные пересечения (то есть, высока вероятность того, что брачующиеся пятиюродные и далее родственники по нескольким линиям).
Велика вероятность случайного характера наследования (то есть, если от папы и мамы имеем почти точных 50%, то от дедушек-бабушек по 23-27%, от прадедов 9-15% и т.д.).
Ну и редко когда у людей имеется проработанное ПО ВСЕМ ВЕТВЯМ родословие от пятиюродного и дальше.

Первоочередная задача видится так: сравнение двух людей, имеющих исчерпывающие родословия на глубину 7 поколений и имеющих в них только одно пересечение.



 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.


Rambler's Top100