АвторТема: Whole Genome Sequence от YSEQ  (Прочитано 15193 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5887
  • Страна: ru
  • Рейтинг +3978/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Whole Genome Sequence от YSEQ
« Ответ #75 : 25 Август 2021, 13:40:42 »
Поделитесь пожалуйста ссылкой на загруженный на Yfull образец WGS400.
YF88409 в R-BY131705
К сожалению полноценного исследования в Yfull при помощи WGS400 не получилось:
"этот образец не попадет в расчет возраста, так как покрытие comBED недостаточное.
Считается что должно быть покрыто тремя или более ридами минимум 5927015 базовых пар. В Вашем случае покрыто с нужным условием 5772515 базовых пар.
Среднее покрытие Y-хромосомы x5.02. Медианное покрытие - x4.".
Хотелось бы получить отзывы других сделавших этот тест.
Правильно ли я понял, что на данный момент Y700 от FTDNA дает лучший результат ?
"классический" WGS x30 от YSEQ, Небулы, Данте и т.п лучше чем Y700 от FTDNA, но по поводу WGS400 SE от YSEQ пока не ясно.

Оффлайн Val_Metov

  • Сообщений: 1171
  • Страна: ru
  • Рейтинг +859/-2
  • Y-ДНК: J-Y94477
Re: Whole Genome Sequence от YSEQ
« Ответ #76 : 26 Август 2021, 08:18:33 »
Я спросил Томаса Крана насчет качества WGS400. Он довольно подробно ответил.

I'd be interested to hear about "errors". I'm pretty sure that the SNPs
that we've released are error free. It is possible that others try to
interpret more in the sequencing alignment than what is possible. But
there is always the possibility to verify valuable SNPs with Sanger
sequencing and we absolutely encourage this for any NGS type of test.

Obviously you can't compare a 50x WGS with a 15x WGS in coverage. Of
course it's easier to automatically call from a high coverage WGS.
However have in mind that the longer reads make sure that only the real
sequences are mapped and many homologous sequences are eliminated.
Therefore the errors may as well be in the 100 or 150 base read
sequences. The trade off for long reads is of course that at the late
bases there are some read errors. But they can be easily recognized if
the direction of the read is taken into account. I'm sure that the
WGS400 bam files are more honest than the data from other companies
where I've seen duplicated reads that blow up the coverage for
statistics, but don't contribute new genetic information.

I can only remember one WGS that wasn't accepted by YFull, but this was
an ancient scientific sample that was not running in our lab, but it was
published data we've received for FastQ mapping. If there was a bad
sample with WGS400 I'd like to know the kit number to look at the data
by myself. We have some samples that have been collected 17 years ago.
To my knowledge they were still acceptable quality, but I may not have
heard back about that particular sample.

Our "problem" was only that we didn't yield enough coverage at an
acceptable financial cost level. This has been resolved now and we make
sure that the coverage is in an acceptable range, or (if not possible)
we'll run free Sanger confirmations for important Y chromosome SNPs to
100% clarify.

If you only want to sequence the Y chromosome, you must have a prior
enrichment step. This costs a lot of money for consumables and extra
labor. Therefore it's questionable if we could be lower in the price if
we sequence only the Y chromosome. Tests like BigY (which I've developed
by myself) are only targeting a relatively small part of the Y
chromosome and there are additional regions on the Y chromosome which we
don't know at all. This is especially true for other haplogroups than
R1b-L2, when they are more distant from the hg38 reference sequence. I'm
pretty sure there are sections on the Y in some haplogroups which are
stable for phylogeny, but which we don't know yet. Therefore a
non-selected WGS sequence is the only way to cover such regions as well.


If I understand this correctly, then YFull has just not used the sample for calculating the TMRCA due to low coverage. There wasn't a general problem with the quality of the reads. They still could identify the exact haplogroup and novel SNPs.

It's a little bit of a philosophical problem what you consider as sufficient coverage. YFull only uses the regions that are well covered in BigY for calculating the TMRCA. The coverage of enrichment tests like BigY fluctuates very much. You have extremely high covered regions right next to regions that have no coverage at all. Therefore a high average read depth is necessary to have enough reliable overlap with other samples.

In contrary the WGS type of tests have an almost constant coverage all over the genome. Therefore a lower coverage can still make sure that there aren't many gaps in between. Of course a higher coverage is always great, but the WGS400 makes up for this by covering more terrain along the Y chromosome. A 5x coverage is really sufficient to identify a novel SNP. Below that it may become harder to automatically scan for novel SNPs. But at YSEQ every novel Y SNP is manually reviewed.

I hope this helps,

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5887
  • Страна: ru
  • Рейтинг +3978/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Whole Genome Sequence от YSEQ
« Ответ #77 : 03 Сентябрь 2021, 16:03:16 »
Я спросил Томаса Крана насчет качества WGS400. Он довольно подробно ответил.
К сожалению критически не хватает времени, но я обещал разобраться в ситуации с семплом уважаемого shink. YSEQ ID 21066 (YF88409)
Очень кратко. Но постараюсь через месяц к этой теме вернуться.

1) Соглашусь с мнением Томаса, что WGS от него является "честным" в плане покрытия. То есть при удалении дублирующихся ридов ковераж практически не уменьшается. Что нельзя сказать о некоторых. WGS и таргетных сиквенсах, по типу BigY, которые сдуваются в два-три раза при удалении дубликатов.

2) Опять же согласен, что чем выше покрытие в глубину, тем проще определять снипы, а вернее определять его качество, отличая реальный снип от фантомных артефактов.

3) Согласен с утверждением "Пятикратного охвата действительно достаточно, чтобы идентифицировать новый SNP. Ниже этого значения может стать сложнее автоматически определять новые SNP. Но в YSEQ каждый новый Y SNP проверяется вручную."
Но дело в том, что при указанном покрытии x15 мы должны иметь покрытие Y в среднем ~x7.5, а в реальности у 21066 покрытие чуть больше x2. И отличить хорошую мутацию от ложной автоматически становится очень проблемным. Да и вручную не всегда все однозначно. Потом приведу примеры.

С образцом 21066 вероятно просто случился сбой в YSEQ. Возможно надо его ресеквенировать и/или отослать новый образец.
Такие случаи мне попадались несколько раз и приходилось объяснять почему в YSEQ нашли "снип", а в YFull не нашли. И во всех случаях очень слабое покрытие и ошибки чтения.

Смотрим скриншоты. Желтым выделены отличия от референса.
YFull нашли, но забраковали следующие снипы:

A29613
https://drive.google.com/file/d/1rl3rsNSitIaW2dyjgwJCPPYIKW8Lgn-0/view?usp=sharing

A29612
https://drive.google.com/file/d/1pB1ILhGkSya_5Tr0hySqNhC74Krirr74/view?usp=sharing

Как видим, артефакты вокруг снипа мешают признать его реально существующим со 100% уверенностью.
Эвристика алгоритмов YFull бракует такие снипы. Причина - много шума на очень малом покрытии.
Эти артефакты можно считать ошибками чтения отдельных нуклеотидов и/или ошибками алгоритмов выравнивания исходных FASTQ. К выравниванию вернемся немного позже.

Дам еще несколько скриншотов от другого семпла, что интересно снипы имеют близкие номера, то есть образцы обрабатывались рядом.
A29623
https://drive.google.com/file/d/1fMxyF2sxocoTAf7Tmw_EfXnFItWSeHku/view?usp=sharing
следующие два снипа не помню название семпла и самих снипов.
https://drive.google.com/file/d/1r7O8aCQN__zi71pEzhEaYubRtb6zpFgg/view?usp=sharing
https://drive.google.com/file/d/1ntvwoeHnVSr8gKgfqVLrwPRuzDAhJKy2/view?usp=sharing

Далее я провел небольшой эксперимент, скачав FASTQ семпла 21066 и перевыровняв их.
Всего получилось 3 бама:
1) Оригинальный, выровненный по hg38 с помощью классического BWA.
2) Выровненный с помощью bwa-mem2 по GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
3) Выровненный с помощью minimap2 по GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
Отличий в принципе получилось не так много, но пробежавшись по мутациям в IGV нашел один пример.
Дорожки в таком же порядке, как я перечислил выше. Обращает внимание как меняется покрытие и пропадает "снип". На этом примере выгодно выглядит minimap2, но это надо еще эксперементировать далее.
В целом же разницы между тремя файлами особой не заметил.
https://drive.google.com/file/d/1AC7XMUymSubeA1x8LgK-AfFr9x8k1cek/view?usp=sharing

Ниже статистика по покрытию этих трех файлов:
https://drive.google.com/file/d/1wo32xwuu0UUPNuNP9chqsW_3sOfN03Is/view?usp=sharing
Как видим, среднее покрытие менее x3. На первом графике, где показан оригинальный файл из YSEQ покрытие немного завышено из-за того что принят в расчет PAR в используемом референсе.
Если не считать PAR, то покрытие 2.07-2.59.
Из дополнительных наблюдений - среднее качество маппирования у bwa - 20, а у bwa-mem2 - 27. minimap2 по MQ где-то между ними.

Итого. WGS400 очень неплохой тест за относительно небольшую стоимость. Томасу за него отдельное спасибо, тк это делает тесты NGS доступными бОльшему числу людей.
Вероятно техпроцесс не до конца отлажен или проблема с пересылаемым образцом и в результате иногда получается низкое покрытие. В любых лабораториях бывают косяки.
Возможно надо обсудить этот вопрос с Томасом по поводу повторного секвенирования.
В любом случае, даже такое покрытие позволяет точно разместить образец на филогенетическом дереве человечества. Единственные минусы малого покрытия - возможный пропуск приватных снипов из-за сомнения в их качестве.
Но при появлении рядом образца, в котором этот снип будет хорошо прочитан, в любом случае будет создан новый субклад. И второй минус малого покрытия - образец может не попасть в расчет возраста, так как требуется покрытие минимум тремя ридами определенного процента ComBED.

P.S. Все написанное выше - мое личное мнение.

« Последнее редактирование: 03 Сентябрь 2021, 16:10:28 от Semargl »

Оффлайн shink

  • Сообщений: 144
  • Страна: ru
  • Рейтинг +50/-0
Re: Whole Genome Sequence от YSEQ
« Ответ #78 : 03 Сентябрь 2021, 20:07:55 »
К сожалению критически не хватает времени, но я обещал разобраться в ситуации с семплом уважаемого shink. YSEQ ID 21066 (YF88409)
Очень кратко. Но постараюсь через месяц к этой теме вернуться.
...
С образцом 21066 вероятно просто случился сбой в YSEQ. Возможно надо его ресеквенировать и/или отослать новый образец.
Semargl, спасибо "индивидуальный подход" и за подробный разбор моего случая. В ближайшее время напишу Томасу Крану письмо с просьбой рассмотреть со своей стороны результаты  секвенирования образца YSEQ ID 21066 и дать оценку его качества.

Оффлайн Val_Metov

  • Сообщений: 1171
  • Страна: ru
  • Рейтинг +859/-2
  • Y-ДНК: J-Y94477
Re: Whole Genome Sequence от YSEQ
« Ответ #79 : 13 Сентябрь 2021, 09:26:04 »
Отправляю сегодня уже 4й образец WGS400. Пока еще ни один не готов, но надеюсь проблем не будет. Очень удобно иметь под рукой неограниченное количество щеток. Приехал человек в гости. Сначала смеялся, а в конце купил полный геном прямо на месте). Я на всякий случай 3-4 щетки отправляю обрезанные.
Создал на сайте YSEQ сотню аккаунтов, номер прописал в таблицу. Распечатал на самоклеящейся бумаге
https://www.ozon.ru/product/etiketka-samokleyashchayasya-38h21-2-mm-65-etiketok-belaya-70-g-m2-50-listov-brauberg-178954747/?sh=y0sOLVif
Наклеил на крафт-пакет https://www.ozon.ru/product/dezupak-kraft-pakety-50h170-korichnevye-100-sht-254041140/?sh=0w6Bd0Zn
и внутрь щетки в исходной упаковке
Получается красивенько и не будет чехарды с номерами.

Оффлайн Val_Metov

  • Сообщений: 1171
  • Страна: ru
  • Рейтинг +859/-2
  • Y-ДНК: J-Y94477
Re: Whole Genome Sequence от YSEQ
« Ответ #80 : 13 Сентябрь 2021, 11:46:45 »
Желаю успехов, может попросите у Крана franchise? Или может он не только на франчайзинг со щётками пойдёт, а на филиал лабы с более продвинутым "железом"?
Была такая идея. В местным вузом можно было скооперироваться итд. Но себестоимость пока выходит дороже чем у Томаса. Но идея такая есть.

Оффлайн shink

  • Сообщений: 144
  • Страна: ru
  • Рейтинг +50/-0
Re: Whole Genome Sequence от YSEQ
« Ответ #81 : 17 Октябрь 2021, 13:30:38 »
Хочу рассказать про продолжение истории с YSEQ ID 21066. По моей рекламации YSEQ оперативно бесплатно переделал тест. После этого покрытие WGS400 в области ComBED стало 7304173 (при достатоточном в Yfull для расчета возраста количестве 5927015). Усредн. глубина покрытия: 5X. В общем стало значительно лучше.
Хочу также поблагадарить команду Yfull, и персонально Semargl, за то что исправленный YSeq тест был так же бесплатно повторно интерпретирован. Новый номер - YF90502.
Всем спасибо. Поступки Томаса и коллег в Yfull заслуживают большого уважения.
Жду расчета возраста и загрузки новой версии дереваYfull. Должна выделиться новая ветка.

Оффлайн Petosiris

  • Сообщений: 558
  • Страна: ua
  • Рейтинг +107/-1
  • Y-ДНК: N-VL70-A11428
Re: Whole Genome Sequence от YSEQ
« Ответ #82 : 17 Октябрь 2021, 14:05:18 »
Хочу рассказать про продолжение истории с YSEQ ID 21066. По моей рекламации YSEQ оперативно бесплатно переделал тест. После этого покрытие WGS400 в области ComBED стало 7304173 (при достатоточном в Yfull для расчета возраста количестве 5927015). Усредн. глубина покрытия: 5X. В общем стало значительно лучше.
Хочу также поблагадарить команду Yfull, и персонально Semargl, за то что исправленный YSeq тест был так же бесплатно повторно интерпретирован. Новый номер - YF90502.
Всем спасибо. Поступки Томаса и коллег в Yfull заслуживают большого уважения.
Жду расчета возраста и загрузки новой версии дереваYfull. Должна выделиться новая ветка.
Так стоит делать WGS400 или это еще сыро и не доработано и лучше не рисковать и сделать FTDNA Y700 + FF + mDNA ?

Оффлайн Val_Metov

  • Сообщений: 1171
  • Страна: ru
  • Рейтинг +859/-2
  • Y-ДНК: J-Y94477
Re: Whole Genome Sequence от YSEQ
« Ответ #83 : 17 Октябрь 2021, 19:53:07 »
Хочу рассказать про продолжение истории с YSEQ ID 21066. По моей рекламации YSEQ оперативно бесплатно переделал тест. После этого покрытие WGS400 в области ComBED стало 7304173 (при достатоточном в Yfull для расчета возраста количестве 5927015). Усредн. глубина покрытия: 5X. В общем стало значительно лучше.
Хочу также поблагадарить команду Yfull, и персонально Semargl, за то что исправленный YSeq тест был так же бесплатно повторно интерпретирован. Новый номер - YF90502.
Всем спасибо. Поступки Томаса и коллег в Yfull заслуживают большого уважения.
Жду расчета возраста и загрузки новой версии дереваYfull. Должна выделиться новая ветка.
Так стоит делать WGS400 или это еще сыро и не доработано и лучше не рисковать и сделать FTDNA Y700 + FF + mDNA ?
Или еще Nebula. 3 за месяц получил результат от Nebula. Очень хорошее качество везде.
YSEQ у нас в работе 3 образца. Первый скоро должен быть готов. Я доверяю их репутации, но Nebula Все же заметно дешевле.

Оффлайн shink

  • Сообщений: 144
  • Страна: ru
  • Рейтинг +50/-0
Re: Whole Genome Sequence от YSEQ
« Ответ #84 : 31 Октябрь 2021, 14:43:50 »
Можно ли из полученных данных по аутосомам WGS400 взять какой-то файл   для загрузки в GedMatch? Или нужно его подготовить? Если да, то как.

Оффлайн Yurgan

  • Кто везёт, тому везёт
  • ...
  • Сообщений: 8403
  • Страна: ar
  • Рейтинг +936/-8
  • Потомок кузнеца Ильмаринена
    • Сибирский родословец
Re: Whole Genome Sequence от YSEQ
« Ответ #85 : 31 Октябрь 2021, 19:37:18 »
Можно ли из полученных данных по аутосомам WGS400 взять какой-то файл   для загрузки в GedMatch? Или нужно его подготовить? Если да, то как.

В gedmatch загружается без проблем файл, который YSEQ формирует отдельно и бесплатно, как приложение к другим результатам WGS400. Называется примерно так -  номер_23andMe_all_hg19.zip

Оффлайн shink

  • Сообщений: 144
  • Страна: ru
  • Рейтинг +50/-0
Re: Whole Genome Sequence от YSEQ
« Ответ #86 : 31 Октябрь 2021, 21:55:43 »
Можно ли из полученных данных по аутосомам WGS400 взять какой-то файл   для загрузки в GedMatch? Или нужно его подготовить? Если да, то как.

В gedmatch загружается без проблем файл, который YSEQ формирует отдельно и бесплатно, как приложение к другим результатам WGS400. Называется примерно так -  номер_23andMe_all_hg19.zip
У меня после загрузки этого файла в Gedmatch статус кита становится "DNA table wrong structure". Пробовал дважды. Номер последнего созданного кита EE6041707.

Оффлайн bulatv2

  • Сообщений: 238
  • Страна: ru
  • Рейтинг +65/-1
  • ftdna: 468412
  • Y-ДНК: R1a-Y35123
  • мтДНК: H1b2c
Re: Whole Genome Sequence от YSEQ
« Ответ #87 : 31 Октябрь 2021, 23:19:44 »
Можно ли из полученных данных по аутосомам WGS400 взять какой-то файл   для загрузки в GedMatch? Или нужно его подготовить? Если да, то как.

В gedmatch загружается без проблем файл, который YSEQ формирует отдельно и бесплатно, как приложение к другим результатам WGS400. Называется примерно так -  номер_23andMe_all_hg19.zip
У меня после загрузки этого файла в Gedmatch статус кита становится "DNA table wrong structure". Пробовал дважды. Номер последнего созданного кита EE6041707.
а там есть hg37?

Оффлайн Saken

  • Сообщений: 453
  • Страна: kz
  • Рейтинг +271/-0
  • YFull: YF079031
  • Y-ДНК: C3d [C-Z33001], R1a [R-Y62055], C3x*
  • мтДНК: D4g1* & F1b & M10a1
Re: Whole Genome Sequence от YSEQ
« Ответ #88 : 01 Ноябрь 2021, 05:06:35 »
В gedmatch загружается без проблем файл, который YSEQ формирует отдельно и бесплатно, как приложение к другим результатам WGS400. Называется примерно так -  номер_23andMe_all_hg19.zip
У меня после загрузки этого файла в Gedmatch статус кита становится "DNA table wrong structure". Пробовал дважды. Номер последнего созданного кита EE6041707.
а там есть hg37?

Hg37 и Hg19 по составу (адресам) по сути одно и тоже. Разница в структуре данных в файле.
У Вас в файле название хромосом отображено как ниже?
"GRCh37 names them `chr1`, `chr2`,,`chr3`, etc, while hg19 just has `1`, `2`, `3`."

Не пробывали bam с WGS 400 через WGS Extract прогнать? Он как раз всегда для микрочипов аутосомных рекоммендует использовать hg37/hg19 для лучшего результата.

Оффлайн Val_Metov

  • Сообщений: 1171
  • Страна: ru
  • Рейтинг +859/-2
  • Y-ДНК: J-Y94477
Re: Whole Genome Sequence от YSEQ
« Ответ #89 : 10 Декабрь 2021, 00:14:24 »
Томас Кран сообщил, что качество тестов улучшается с новыми батчами. Реагенты новые пробуют. Проблема в том, что значительная  часть фрагментов ДНК уже длиной менее 400 bp. Все преимущества не получается использовать. Решают.
Но будущее за нанопорами. В идеале полное секвенирование только Y через нанопоры. А если ещё и кровь свежую использовать, то вообще шик.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.