АвторТема: Компания Dante Labs  (Прочитано 32281 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн AlexVN

  • Сообщений: 2
  • Страна: ru
  • Рейтинг +3/-0
Re: Компания Dante Labs
« Ответ #480 : 16 Октябрь 2019, 16:03:45 »
Всем привет, некоторое время назад я таки дождался от Данте первых данных по моему секвенированию. Заказывал еще в апреле когда было доступно длинными чтениями у них.
Пока к скачаванию готов только FASTQ файл, с трудом но выкачал из их облака на другом конце земли - та еще задача. При обрыве связи качай все заново ( Архив около 100Гб
Я совсем новичок в анализе генетических данных, так что не пинайте сильно )
Для начала хотел понять качество этих конкретных данных. Прогнал через fastp и FastQC - на мой взгляд результаты как-то не очень. fastp и fastqc
Может что не так с настройками, для LongRead может надо использовать какие-то другие утилиты?
В общем подскажите куда копать и чем анализировать.
Ну и в BAM формат потом хочется самостоятельно перевести. Данте вроде в последнем письме обещает сделать, но пока от них дождешься...

И еще, по самим данным можно понять на каком оборудовании произведен анализ?
Данные заголовка приблизительно такие: @1c4e142b-76e5-43ea-bfca-72ee76420fff runid=73c96f5de7cbea095a60354ddb9b8c5133913c33 read=6 ch=2104 start_time=2019-06-06T17:45:50Z flow_cell_id=PAD65127 protocol_group_id=DL_AQ_2
0190606_005 sample_id=608
Из заголовка что-то полезное можно извлечь?
« Последнее редактирование: 16 Октябрь 2019, 17:09:07 от AlexVN »

Оффлайн AlexVN

  • Сообщений: 2
  • Страна: ru
  • Рейтинг +3/-0
Re: Компания Dante Labs
« Ответ #481 : 16 Октябрь 2019, 16:53:13 »
Кто-нибудь в курсе, сейчас реально получить от них пробирку в Россию? Знакомый раздумывает над приобретением теста. В принципе, там и на юрлицо можно.

PS тоже пообещали письмом сделать доступными из облака файлы, которые в моем случае были доступны из личного кабинета изначально ::)
Первую пробирку еще в апреле я получил на физлицо без каких-то проблем. Со второй, заказывал в мае, уже возникли серьезные проблемы с отправкой. Несколько месяцев переписки с ними впустую, говорят пробовали разными службами доставки, мне даже приходили номера для отслеживания, но безрезультатно. В итоге попросил отправить на адрес посредника в Германии, туда пришло без проблем, посредник тоже в общем то без проблем доставил в Россию, хотя и пришлось за это заплатить 20 евро. Посредник бандеролька.
С отправкой обратно тоже цирк с конями. Первую пробирку удалось отправить от юрлица указав что там просто пластиковая коробка.
Со второй так не прокатило, DHL позвонил со словами что таможенный инспектор желает знать что внутри пробирки, я честно признался, в итоге мне все вернули обратно. Решил отправить почтой России, отправка прошла без проблем и за копейки, на текущий момент судя по трекингу таможня пройдена, но до Данте еще не доехала посылка.

Оффлайн MCB

  • Сообщений: 45
  • Страна: 00
  • Рейтинг +27/-1
Re: Компания Dante Labs
« Ответ #482 : 16 Октябрь 2019, 23:00:49 »
Прогнал через fastp и FastQC - на мой взгляд результаты как-то не очень. fastp и fastqc
Может что не так с настройками, для LongRead может надо использовать какие-то другие утилиты?
Адапторы от Оксфорда эти пакеты не распознают, ну так первые 9 нуклеотидов, вероятно, их адоптор и можно проигнорить. Потом среднее качество довольно долго держится на уровне phred 15, т.е. одной ошибки на 30 нуклеотидов (с большим разбросом, но 95% ридов не дотягивают до phred 20, то есть частота ошибок практически всегда выше 1%), а ближе к концу длинного рида качество начинает сползать и ошибки в среднем лепятся с 10% частотой (но даже в лучших ридах там 2% ошибок). Отдельный вопрос, конечно - хорошо ли отработана у них шкала phred, ведь эта оценка качества может оказаться и хуже или лучше, чем реально по выравниванию. Ближе к концу ридов также видны, видимо, систематические ошибки, когда пурины не идентифицируются, а зато пиримидинов лезет прорва?

Примерно такого качества и следует ожидать от нанапоровых машин Оксфорда. Их главное достоинство - не в том, что нуклеотиды читаются надежно, а в том, что надежно виден дальний порядок в ДНК и все те хромосомные перестройки, которые обычное секвенирование пропускает.

Оффлайн MCB

  • Сообщений: 45
  • Страна: 00
  • Рейтинг +27/-1
Re: Компания Dante Labs
« Ответ #483 : 22 Октябрь 2019, 23:21:22 »
Предлагается запретить загрузку данных, не созданных самими ведущими лабораториями, а воссозданных из данных секвенирования типа Данте
https://www.biorxiv.org/content/10.1101/798272v1

Цели для этого самые благие - выясняется, что, загружая хитрым образом склепанные фиктивные геномы, можно узнать генотипы пользователей

Онлайн NathanS

  • Сообщений: 162
  • Рейтинг +117/-1
  • Y-ДНК: ЖМ: N1c-Z1939
Re: Компания Dante Labs
« Ответ #484 : 23 Октябрь 2019, 00:10:20 »
Предлагается запретить загрузку данных, не созданных самими ведущими лабораториями, а воссозданных из данных секвенирования типа Данте
https://www.biorxiv.org/content/10.1101/798272v1

Цели для этого самые благие - выясняется, что, загружая хитрым образом склепанные фиктивные геномы, можно узнать генотипы пользователей

Из резюме к статье:
Цитировать
For example, using a method we call IBS tiling, we estimate that an adversary who uploads approximately 900 publicly available genomes could recover at least one allele at SNP sites across up to 82% of the genome of a median person of European ancestries.

Например, используя метод, коротый мы называем IBS tiling, мы оцениваем, что "противник/враг", который загрузит примерно 900 общественно доступных геномов смог бы извлечь (идентифицировать) по крайней мере 1 SNP аллель среди  примерно 82% генома среднего человека европейского происхождения.

Это всё таки не про фиктивные геномы, и не про ДантеЛабс. Если у Вас есть доступ к полной статье, пожалуйста, приведите цитаты подтверждающие Ваши утверждения.

Оффлайн MCB

  • Сообщений: 45
  • Страна: 00
  • Рейтинг +27/-1
Re: Компания Dante Labs
« Ответ #485 : 23 Октябрь 2019, 00:48:31 »
Ээ, мне кажется,  я ясно выразился,  но попробую еще раз. 
В этом препринте делается вывод,  что надо запретить загрузку генотипов, созданных не самими лабораториями,  а кем-то еще в правильном формате, но склепанных на стороне. В их число входят и файлы от WGSextract  и тп самопальщина,  воссозданная на основе полного секвенирования. 

Оффлайн MCB

  • Сообщений: 45
  • Страна: 00
  • Рейтинг +27/-1
Re: Компания Dante Labs
« Ответ #486 : 23 Октябрь 2019, 01:03:12 »
И, кстати, много там написано про геномы совсем фиктивные, специально нарисованные как наживка.  Но это как раз к нашей теме не относится

В секции 2.2 они обсуждают, как фейкнуть "хромосомы" free of linkage disequilibrium (LD) чтобы выяснить генотип в локусе APOE у "совпаденцев" с такими фиктивными геномами. В секции 2.3 - как использовать фиктивные генотипы с гетерозиготностью множества маркеров. И т.д. Всё это не про нас, а упоминаю я это только потому, что один заботливый форумчанин вломил мне минусик потому, что полагал, что в непрочитанной им статье "не обсуждались фиктивные геномы".

Про нашу же душу - вот такое предложение на строке 399: 1. Require uploaded files to include cryptographic signatures identifying their source.

 
« Последнее редактирование: 23 Октябрь 2019, 06:50:56 от MCB »

Онлайн mdn

  • Сообщений: 120
  • Страна: fi
  • Рейтинг +48/-0
  • Y-ДНК: R-FGC56440
  • мтДНК: R1a1a1
Re: Компания Dante Labs
« Ответ #487 : 24 Октябрь 2019, 08:24:50 »
Вчера обнаружил, что оказывается, уже были заказы и отчеты по этому 4х чтению.
И вообще оказывается, 4x - это чтение Х хромосомы, аутосомы получаются в 2 раза выше, а Y - в 2 раза ниже (и это как-то даже обосновывается как-то научно).

То есть вкратце:
Аутосом - покрытие >90%, глубина ~9.
Y - средняя глубина 1.66, то есть очень мало.
Мито - 156 раз прочитано.

Длина чтения 150.

Мой обратный Интро 4х доставлен туда почтой под роспись в понедельник, но пока официально не получен (в системе до сих пор "ожидается"). :)

Оффлайн Srkz

  • Сообщений: 5474
  • Страна: ru
  • Рейтинг +2257/-2
  • Y-ДНК: N-L1025*
  • мтДНК: U4a1e-pre T16093C T16311T
Re: Компания Dante Labs
« Ответ #488 : 24 Октябрь 2019, 09:00:29 »
И вообще оказывается, 4x - это чтение Х хромосомы, аутосомы получаются в 2 раза выше, а Y - в 2 раза ниже (и это как-то даже обосновывается как-то научно).
Не вполне понимаю их логику ) А как это все формулируется в исходном сообщении?

надо запретить загрузку генотипов, созданных не самими лабораториями,  а кем-то еще в правильном формате, но склепанных на стороне. В их число входят и файлы от WGSextract  и тп самопальщина,  воссозданная на основе полного секвенирования.
Логичный шаг после того, как им начали периодически загружать вместо геномов какую-то хрень с кучей лжесовпаденцев (даже оставляя в стороне то, что таким путём действительно можно вычислить чьи-то личные данные).

Онлайн mdn

  • Сообщений: 120
  • Страна: fi
  • Рейтинг +48/-0
  • Y-ДНК: R-FGC56440
  • мтДНК: R1a1a1
Re: Компания Dante Labs
« Ответ #489 : 24 Октябрь 2019, 14:17:21 »
И вообще оказывается, 4x - это чтение Х хромосомы, аутосомы получаются в 2 раза выше, а Y - в 2 раза ниже (и это как-то даже обосновывается как-то научно).
Не вполне понимаю их логику ) А как это все формулируется в исходном сообщении?
Вот ссылка на более точную статистику: здесь (и там же чуть выше статистика длин). Про аутосомы - это по той статистике получается.

А про то, что Y стандартно в 2 раза хуже: https://ydna-warehouse.org/statistics.html : "Another related issue with the Callable Loci statistic in lower average depth WGS tests is the nature of how read alignment works. On average WGS tests have fifty percent of test's rated depth covered in the Y chromosome e.g. a 15x test has 7 reads spanning each location."

И что чуть раньше: "he normal sequencing coverage is calculated over diploid ie. autosomal chromosomes, so 4X sequence should have average read depth of 2X over euchromatid regions Y-chromosome. Conversely, 4X Y-chromosome sequence would be 8X whole genome"
Не могу найти, где там прочитал про другую форму Y.

Оффлайн Srkz

  • Сообщений: 5474
  • Страна: ru
  • Рейтинг +2257/-2
  • Y-ДНК: N-L1025*
  • мтДНК: U4a1e-pre T16093C T16311T
Re: Компания Dante Labs
« Ответ #490 : 24 Октябрь 2019, 14:25:55 »
А про то, что Y стандартно в 2 раза хуже
Ну тут речь про то, что для Y покрытие получается как бы вдвое ниже по сравнению с аутосомами, поскольку считается на одну хромосому, а не на пару.

Онлайн mdn

  • Сообщений: 120
  • Страна: fi
  • Рейтинг +48/-0
  • Y-ДНК: R-FGC56440
  • мтДНК: R1a1a1
Re: Компания Dante Labs
« Ответ #491 : 29 Октябрь 2019, 17:18:49 »
Акция 2 недели за цену 8 закончилась.

Началась акция 30х за 8 недель за 399€ (обычная цена 599€, там якобы 849 без скидки, но это неправда, ещё ни разу не было не скидки до 599 хотя бы).

Так что, видимо, на Черную пятницу будет лучше предложение.

Про мое текущее состояние там писать пока не буду, чтобы не сглазить.  :D

Онлайн NathanS

  • Сообщений: 162
  • Рейтинг +117/-1
  • Y-ДНК: ЖМ: N1c-Z1939
Re: Компания Dante Labs
« Ответ #492 : 30 Октябрь 2019, 21:22:57 »
Вчера получил е-мэйл от ДантеЛабс, что готовы результаты теста полученного в начале сентября. Два отчета по здоровью и фармакологии тоже были готовы вчера. Сегодня были загружены BAM-файлы на сайт. Получается они уложились в свои заявленные 8 недель. Вероятно наличие своей лаборатории позволило им придерживаться заявленных сроков.

BAM-файл существенно меньше, 34 ГБ, по сравнению с первыми тестами, 120 ГБ. Вероятно это связано с большей длинной рида. Было какое-то упоминание hg38, но я сегодня висит просто BAM - не знаю 38 билд это или нет. Но я пока загружаю результаты и не успел их просмотреть. Также существенно изменились их отчеты по здоровью и реакции на лекарства. Все более коротко и описаны только опасные отклонения. Плюс для тех, кто не хочет перечитывать массу информации о тех состояних, которые не актуальны для тестирующегося. Заказал на пробу их персонализированный отчет при помощи искуственного интеллекта. Хочу посмотреть разницу. Загрузка на yfull будет.

Онлайн NathanS

  • Сообщений: 162
  • Рейтинг +117/-1
  • Y-ДНК: ЖМ: N1c-Z1939
Re: Компания Dante Labs
« Ответ #493 : 01 Ноябрь 2019, 18:40:22 »
BAM-файл существенно меньше, 34 ГБ, по сравнению с первыми тестами, 120 ГБ. Вероятно это связано с большей длинной рида. Было какое-то упоминание hg38, но я сегодня висит просто BAM - не знаю 38 билд это или нет. Но я пока загружаю результаты и не успел их просмотреть.

Просмотрел заголовок BAM-файла и не нашел там четкого упоминания референсного генома. Процедура выравнивания генома у них видимо изменилась. Собрав статистику по BAM-файлу, думаю, что это hg19/GRCh37:
Цитировать
1       249250621       44510974        69482
2       243199373       45724588        84904
3       198022430       36596151        57704
4       191154276       34391983        55064
5       180915260       33391762        53949
6       171115067       31602538        51140
7       159138663       29931649        46361
8       146364022       27752302        43937
9       141213431       23051912        34697
10      135534747       25410056        40093
11      135006516       25595721        38963
12      133851895       24978727        42700
13      115169878       17578095        28475
14      107349540       16983159        26680
15      102531392       16402275        24551
16      90354753        17308247        26922
17      81195210        16285916        25194
18      78077248        14071286        22740
19      59128983        12157476        19505
20      63025520        12158849        20224
21      48129895        7111282 10917
22      51304566        7662206 11298
X       155270560       14774689        35948
Y       59373566        2987656 4774
MT      16569   403797  770

Длина рида стала больше:
Цитировать
SN   average length:   141
SN   average first fragment length:   141
SN   average last fragment length:   141
SN   maximum length:   151
SN   maximum first fragment length:   151
SN   maximum last fragment length:   151
SN   average quality:   35.7

Онлайн mdn

  • Сообщений: 120
  • Страна: fi
  • Рейтинг +48/-0
  • Y-ДНК: R-FGC56440
  • мтДНК: R1a1a1
Re: Компания Dante Labs
« Ответ #494 : 01 Ноябрь 2019, 22:46:44 »
Вчера получил е-мэйл от ДантеЛабс, что готовы результаты теста полученного в начале сентября. Два отчета по здоровью и фармакологии тоже были готовы вчера. Сегодня были загружены BAM-файлы на сайт. Получается они уложились в свои заявленные 8 недель.
Пожалуйста, можете уточнить, в какой момент сменился статус на "Sequencing Started"? Сколько эта последняя стадия по времени заняла?


 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.


Rambler's Top100