АвторТема: YSEQ WGS400  (Прочитано 2599 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Val_Metov

  • Сообщений: 835
  • Страна: ru
  • Рейтинг +547/-2
  • Y-ДНК: J-Y94477
Re: YSEQ WGS400
« Ответ #30 : 21 Июль 2021, 21:41:38 »
Для того чтобы понять как организовать процесс тестирования... Как сейчас приходит тестовый набор от YSEQ? Его просто кладут в почтовый ящик или его нужно получать на почте России? Это письмо или мелкий пакет? Если это важно, планирую дополнительно оплатить трэкинговый номер.
А зачем вам этот тестовый набор?
Берете стерильные щетки, например Юнона. 100 штук - 700 руб. У нас меньшим объемом не продают, но при такой цене это разумно.
Делаете забор. Сушите щетки, пол часа. Аккуратно засовываете обратно в ту же упаковку в которой были щетки. Для оптимизации можно обрезать щетку. Аккуратно заклеиваете и отправляете. Штук 10 за раз (10 x 2) отправлял, с качеством проблем нет, для полного генома подходят. Это по информации Астрид.

Оффлайн shink

  • Сообщений: 137
  • Страна: ru
  • Рейтинг +50/-0
Re: YSEQ WGS400
« Ответ #31 : 21 Июль 2021, 22:00:56 »
Для того чтобы понять как организовать процесс тестирования... Как сейчас приходит тестовый набор от YSEQ? Его просто кладут в почтовый ящик или его нужно получать на почте России? Это письмо или мелкий пакет? Если это важно, планирую дополнительно оплатить трэкинговый номер.
А зачем вам этот тестовый набор?
Берете стерильные щетки, например Юнона. 100 штук - 700 руб. У нас меньшим объемом не продают, но при такой цене это разумно.
Делаете забор. Сушите щетки, пол часа. Аккуратно засовываете обратно в ту же упаковку в которой были щетки. Для оптимизации можно обрезать щетку. Аккуратно заклеиваете и отправляете. Штук 10 за раз (10 x 2) отправлял, с качеством проблем нет, для полного генома подходят. Это по информации Астрид.
Не сам сдаю. Это человек из другого города. Нужно чтобы все было максимально просто и без моего участия. Готовые щетки, готовый конверт...

Оффлайн Val_Metov

  • Сообщений: 835
  • Страна: ru
  • Рейтинг +547/-2
  • Y-ДНК: J-Y94477
Re: YSEQ WGS400
« Ответ #32 : 24 Август 2021, 10:44:48 »
Поделитесь пожалуйста ссылкой на загруженный на Yfull образец WGS400.

Оффлайн shink

  • Сообщений: 137
  • Страна: ru
  • Рейтинг +50/-0
Re: YSEQ WGS400
« Ответ #33 : 24 Август 2021, 14:28:39 »
Поделитесь пожалуйста ссылкой на загруженный на Yfull образец WGS400.
YF88409 в R-BY131705

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5625
  • Страна: cn
  • Рейтинг +3511/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: YSEQ WGS400
« Ответ #34 : 24 Август 2021, 17:04:45 »
2. YSEQ. + Репутация. + длина прочтения. - цена (относительно Nebula и скидок Данте). + Скорость. Наборы для WGS400 отправляются Академией ДНК генеалогии. -Глубина прочтения. x15 против x30 у конкурентов.
Добавлю про WGS400. Существенный минус - применяемая технология single read.
Дешевле, но ошибок больше.
x15 означает ~x7 для игрека.

Оффлайн ochkas

  • Сообщений: 513
  • Страна: ru
  • Рейтинг +213/-0
  • FTDNA: 634321
    • Ochkas DNA
  • Y-ДНК: R1a-L1029-Y128293 (UKR)
  • мтДНК: U3a3a1a1 (BLR)
Re: YSEQ WGS400
« Ответ #35 : 24 Август 2021, 17:43:29 »
Заказал тест в YSEQ. Пришёл тест YSEQ из Москвы, из ООО "Лаборатория ДНК-генеалогии". Кто-то слышал о том, что Клёсов теперь сотрудничает в Томасом Краном?)
Обратно тест необходимо отправлять в YSEQ.

Оффлайн Val_Metov

  • Сообщений: 835
  • Страна: ru
  • Рейтинг +547/-2
  • Y-ДНК: J-Y94477
Re: YSEQ WGS400
« Ответ #36 : 24 Август 2021, 18:26:13 »
2. YSEQ. + Репутация. + длина прочтения. - цена (относительно Nebula и скидок Данте). + Скорость. Наборы для WGS400 отправляются Академией ДНК генеалогии. -Глубина прочтения. x15 против x30 у конкурентов.
Добавлю про WGS400. Существенный минус - применяемая технология single read.
Дешевле, но ошибок больше.
x15 означает ~x7 для игрека.
Это существенно. Я что то не читал про ошибки SR. PR вроде по 150(в случае Nebula) с каждого конца. Общая длина 300 пар оснований. Но непрерывная 150. Как я понимаю на процент ошибок это не влияет. Если речь об ошибках сборки то тоже не понимаю, вроде 400 легче собрать чем условные 300 пар оснований.
Для Y да, среднее прочтение 5-7. Желательно очень серьезно подойти к процессу забора.

Если я правильно понял и там и там применяются условно Китайские секвенаторов DNBSEQ. Процент ошибок судя по описания не сильно отличается.

Оффлайн Val_Metov

  • Сообщений: 835
  • Страна: ru
  • Рейтинг +547/-2
  • Y-ДНК: J-Y94477
Re: YSEQ WGS400
« Ответ #37 : 24 Август 2021, 18:36:19 »
Заказал тест в YSEQ. Пришёл тест YSEQ из Москвы, из ООО "Лаборатория ДНК-генеалогии". Кто-то слышал о том, что Клёсов теперь сотрудничает в Томасом Краном?)
Обратно тест необходимо отправлять в YSEQ.
Все верно и это очень удобно.
Я полагаю сами тесты "свои" Академики делают в Yseq с гигантской наценкой, предлагая сверху свою сверхдорогую интерпретацию. Такую интерпретацию могут сотни людей на этом форуме сделать

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5625
  • Страна: cn
  • Рейтинг +3511/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: YSEQ WGS400
« Ответ #38 : 24 Август 2021, 18:54:43 »
2. YSEQ. + Репутация. + длина прочтения. - цена (относительно Nebula и скидок Данте). + Скорость. Наборы для WGS400 отправляются Академией ДНК генеалогии. -Глубина прочтения. x15 против x30 у конкурентов.
Добавлю про WGS400. Существенный минус - применяемая технология single read.
Дешевле, но ошибок больше.
x15 означает ~x7 для игрека.
Это существенно. Я что то не читал про ошибки SR. PR вроде по 150(в случае Nebula) с каждого конца. Общая длина 300 пар оснований. Но непрерывная 150. Как я понимаю на процент ошибок это не влияет. Если речь об ошибках сборки то тоже не понимаю, вроде 400 легче собрать чем условные 300 пар оснований.
Для Y да, среднее прочтение 5-7. Желательно очень серьезно подойти к процессу забора.

Если я правильно понял и там и там применяются условно Китайские секвенаторов DNBSEQ. Процент ошибок судя по описания не сильно отличается.
Встречается достаточно много ридов, с более чем 20 отличиями от референса. Похоже все-таки на ошибки прочтения конкретных баз, так как бывает и просто 'N'. Хотя ради эксперимента все-таки надо попробовать перемаппировать сиквенс с разными параметрами и разным ПО.

Оффлайн shink

  • Сообщений: 137
  • Страна: ru
  • Рейтинг +50/-0
Re: YSEQ WGS400
« Ответ #39 : 24 Август 2021, 21:28:33 »
Поделитесь пожалуйста ссылкой на загруженный на Yfull образец WGS400.
YF88409 в R-BY131705
К сожалению полноценного исследования в Yfull при помощи WGS400 не получилось:
"этот образец не попадет в расчет возраста, так как покрытие comBED недостаточное.
Считается что должно быть покрыто тремя или более ридами минимум 5927015 базовых пар. В Вашем случае покрыто с нужным условием 5772515 базовых пар.
Среднее покрытие Y-хромосомы x5.02. Медианное покрытие - x4.".
Хотелось бы получить отзывы других сделавших этот тест.

Оффлайн Petosiris

  • Сообщений: 558
  • Страна: ua
  • Рейтинг +106/-1
  • Y-ДНК: N-VL70
Re: YSEQ WGS400
« Ответ #40 : 25 Август 2021, 09:16:38 »
Поделитесь пожалуйста ссылкой на загруженный на Yfull образец WGS400.
YF88409 в R-BY131705
К сожалению полноценного исследования в Yfull при помощи WGS400 не получилось:
"этот образец не попадет в расчет возраста, так как покрытие comBED недостаточное.
Считается что должно быть покрыто тремя или более ридами минимум 5927015 базовых пар. В Вашем случае покрыто с нужным условием 5772515 базовых пар.
Среднее покрытие Y-хромосомы x5.02. Медианное покрытие - x4.".
Хотелось бы получить отзывы других сделавших этот тест.
Правильно ли я понял, что на данный момент Y700 от FTDNA дает лучший результат ?

Оффлайн Val_Metov

  • Сообщений: 835
  • Страна: ru
  • Рейтинг +547/-2
  • Y-ДНК: J-Y94477
Re: YSEQ WGS400
« Ответ #41 : 25 Август 2021, 11:57:52 »
Получается пока спорно. Может быть образец был старый?
Для WGS теста лучше бы новый отправить. Я жду результаты WGS400, надеюсь в Сентябре выдадут. Будет обидно, если на Yfull не получится загрузить

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5625
  • Страна: cn
  • Рейтинг +3511/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: YSEQ WGS400
« Ответ #42 : 25 Август 2021, 13:40:42 »
Поделитесь пожалуйста ссылкой на загруженный на Yfull образец WGS400.
YF88409 в R-BY131705
К сожалению полноценного исследования в Yfull при помощи WGS400 не получилось:
"этот образец не попадет в расчет возраста, так как покрытие comBED недостаточное.
Считается что должно быть покрыто тремя или более ридами минимум 5927015 базовых пар. В Вашем случае покрыто с нужным условием 5772515 базовых пар.
Среднее покрытие Y-хромосомы x5.02. Медианное покрытие - x4.".
Хотелось бы получить отзывы других сделавших этот тест.
Правильно ли я понял, что на данный момент Y700 от FTDNA дает лучший результат ?
"классический" WGS x30 от YSEQ, Небулы, Данте и т.п лучше чем Y700 от FTDNA, но по поводу WGS400 SE от YSEQ пока не ясно.

Оффлайн Val_Metov

  • Сообщений: 835
  • Страна: ru
  • Рейтинг +547/-2
  • Y-ДНК: J-Y94477
Re: YSEQ WGS400
« Ответ #43 : 26 Август 2021, 08:18:33 »
Я спросил Томаса Крана насчет качества WGS400. Он довольно подробно ответил.

I'd be interested to hear about "errors". I'm pretty sure that the SNPs
that we've released are error free. It is possible that others try to
interpret more in the sequencing alignment than what is possible. But
there is always the possibility to verify valuable SNPs with Sanger
sequencing and we absolutely encourage this for any NGS type of test.

Obviously you can't compare a 50x WGS with a 15x WGS in coverage. Of
course it's easier to automatically call from a high coverage WGS.
However have in mind that the longer reads make sure that only the real
sequences are mapped and many homologous sequences are eliminated.
Therefore the errors may as well be in the 100 or 150 base read
sequences. The trade off for long reads is of course that at the late
bases there are some read errors. But they can be easily recognized if
the direction of the read is taken into account. I'm sure that the
WGS400 bam files are more honest than the data from other companies
where I've seen duplicated reads that blow up the coverage for
statistics, but don't contribute new genetic information.

I can only remember one WGS that wasn't accepted by YFull, but this was
an ancient scientific sample that was not running in our lab, but it was
published data we've received for FastQ mapping. If there was a bad
sample with WGS400 I'd like to know the kit number to look at the data
by myself. We have some samples that have been collected 17 years ago.
To my knowledge they were still acceptable quality, but I may not have
heard back about that particular sample.

Our "problem" was only that we didn't yield enough coverage at an
acceptable financial cost level. This has been resolved now and we make
sure that the coverage is in an acceptable range, or (if not possible)
we'll run free Sanger confirmations for important Y chromosome SNPs to
100% clarify.

If you only want to sequence the Y chromosome, you must have a prior
enrichment step. This costs a lot of money for consumables and extra
labor. Therefore it's questionable if we could be lower in the price if
we sequence only the Y chromosome. Tests like BigY (which I've developed
by myself) are only targeting a relatively small part of the Y
chromosome and there are additional regions on the Y chromosome which we
don't know at all. This is especially true for other haplogroups than
R1b-L2, when they are more distant from the hg38 reference sequence. I'm
pretty sure there are sections on the Y in some haplogroups which are
stable for phylogeny, but which we don't know yet. Therefore a
non-selected WGS sequence is the only way to cover such regions as well.


If I understand this correctly, then YFull has just not used the sample for calculating the TMRCA due to low coverage. There wasn't a general problem with the quality of the reads. They still could identify the exact haplogroup and novel SNPs.

It's a little bit of a philosophical problem what you consider as sufficient coverage. YFull only uses the regions that are well covered in BigY for calculating the TMRCA. The coverage of enrichment tests like BigY fluctuates very much. You have extremely high covered regions right next to regions that have no coverage at all. Therefore a high average read depth is necessary to have enough reliable overlap with other samples.

In contrary the WGS type of tests have an almost constant coverage all over the genome. Therefore a lower coverage can still make sure that there aren't many gaps in between. Of course a higher coverage is always great, but the WGS400 makes up for this by covering more terrain along the Y chromosome. A 5x coverage is really sufficient to identify a novel SNP. Below that it may become harder to automatically scan for novel SNPs. But at YSEQ every novel Y SNP is manually reviewed.

I hope this helps,

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5625
  • Страна: cn
  • Рейтинг +3511/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: YSEQ WGS400
« Ответ #44 : 03 Сентябрь 2021, 16:03:16 »
Я спросил Томаса Крана насчет качества WGS400. Он довольно подробно ответил.
К сожалению критически не хватает времени, но я обещал разобраться в ситуации с семплом уважаемого shink. YSEQ ID 21066 (YF88409)
Очень кратко. Но постараюсь через месяц к этой теме вернуться.

1) Соглашусь с мнением Томаса, что WGS от него является "честным" в плане покрытия. То есть при удалении дублирующихся ридов ковераж практически не уменьшается. Что нельзя сказать о некоторых. WGS и таргетных сиквенсах, по типу BigY, которые сдуваются в два-три раза при удалении дубликатов.

2) Опять же согласен, что чем выше покрытие в глубину, тем проще определять снипы, а вернее определять его качество, отличая реальный снип от фантомных артефактов.

3) Согласен с утверждением "Пятикратного охвата действительно достаточно, чтобы идентифицировать новый SNP. Ниже этого значения может стать сложнее автоматически определять новые SNP. Но в YSEQ каждый новый Y SNP проверяется вручную."
Но дело в том, что при указанном покрытии x15 мы должны иметь покрытие Y в среднем ~x7.5, а в реальности у 21066 покрытие чуть больше x2. И отличить хорошую мутацию от ложной автоматически становится очень проблемным. Да и вручную не всегда все однозначно. Потом приведу примеры.

С образцом 21066 вероятно просто случился сбой в YSEQ. Возможно надо его ресеквенировать и/или отослать новый образец.
Такие случаи мне попадались несколько раз и приходилось объяснять почему в YSEQ нашли "снип", а в YFull не нашли. И во всех случаях очень слабое покрытие и ошибки чтения.

Смотрим скриншоты. Желтым выделены отличия от референса.
YFull нашли, но забраковали следующие снипы:

A29613
https://drive.google.com/file/d/1rl3rsNSitIaW2dyjgwJCPPYIKW8Lgn-0/view?usp=sharing

A29612
https://drive.google.com/file/d/1pB1ILhGkSya_5Tr0hySqNhC74Krirr74/view?usp=sharing

Как видим, артефакты вокруг снипа мешают признать его реально существующим со 100% уверенностью.
Эвристика алгоритмов YFull бракует такие снипы. Причина - много шума на очень малом покрытии.
Эти артефакты можно считать ошибками чтения отдельных нуклеотидов и/или ошибками алгоритмов выравнивания исходных FASTQ. К выравниванию вернемся немного позже.

Дам еще несколько скриншотов от другого семпла, что интересно снипы имеют близкие номера, то есть образцы обрабатывались рядом.
A29623
https://drive.google.com/file/d/1fMxyF2sxocoTAf7Tmw_EfXnFItWSeHku/view?usp=sharing
следующие два снипа не помню название семпла и самих снипов.
https://drive.google.com/file/d/1r7O8aCQN__zi71pEzhEaYubRtb6zpFgg/view?usp=sharing
https://drive.google.com/file/d/1ntvwoeHnVSr8gKgfqVLrwPRuzDAhJKy2/view?usp=sharing

Далее я провел небольшой эксперимент, скачав FASTQ семпла 21066 и перевыровняв их.
Всего получилось 3 бама:
1) Оригинальный, выровненный по hg38 с помощью классического BWA.
2) Выровненный с помощью bwa-mem2 по GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
3) Выровненный с помощью minimap2 по GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
Отличий в принципе получилось не так много, но пробежавшись по мутациям в IGV нашел один пример.
Дорожки в таком же порядке, как я перечислил выше. Обращает внимание как меняется покрытие и пропадает "снип". На этом примере выгодно выглядит minimap2, но это надо еще эксперементировать далее.
В целом же разницы между тремя файлами особой не заметил.
https://drive.google.com/file/d/1AC7XMUymSubeA1x8LgK-AfFr9x8k1cek/view?usp=sharing

Ниже статистика по покрытию этих трех файлов:
https://drive.google.com/file/d/1wo32xwuu0UUPNuNP9chqsW_3sOfN03Is/view?usp=sharing
Как видим, среднее покрытие менее x3. На первом графике, где показан оригинальный файл из YSEQ покрытие немного завышено из-за того что принят в расчет PAR в используемом референсе.
Если не считать PAR, то покрытие 2.07-2.59.
Из дополнительных наблюдений - среднее качество маппирования у bwa - 20, а у bwa-mem2 - 27. minimap2 по MQ где-то между ними.

Итого. WGS400 очень неплохой тест за относительно небольшую стоимость. Томасу за него отдельное спасибо, тк это делает тесты NGS доступными бОльшему числу людей.
Вероятно техпроцесс не до конца отлажен или проблема с пересылаемым образцом и в результате иногда получается низкое покрытие. В любых лабораториях бывают косяки.
Возможно надо обсудить этот вопрос с Томасом по поводу повторного секвенирования.
В любом случае, даже такое покрытие позволяет точно разместить образец на филогенетическом дереве человечества. Единственные минусы малого покрытия - возможный пропуск приватных снипов из-за сомнения в их качестве.
Но при появлении рядом образца, в котором этот снип будет хорошо прочитан, в любом случае будет создан новый субклад. И второй минус малого покрытия - образец может не попасть в расчет возраста, так как требуется покрытие минимум тремя ридами определенного процента ComBED.

P.S. Все написанное выше - мое личное мнение.

« Последнее редактирование: 03 Сентябрь 2021, 16:10:28 от Semargl »

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.