Я спросил Томаса Крана насчет качества WGS400. Он довольно подробно ответил.
К сожалению критически не хватает времени, но я обещал разобраться в ситуации с семплом уважаемого
shink. YSEQ ID 21066 (YF88409)
Очень кратко. Но постараюсь через месяц к этой теме вернуться.
1) Соглашусь с мнением Томаса, что WGS от него является "честным" в плане покрытия. То есть при удалении дублирующихся ридов ковераж практически не уменьшается. Что нельзя сказать о некоторых. WGS и таргетных сиквенсах, по типу BigY, которые сдуваются в два-три раза при удалении дубликатов.
2) Опять же согласен, что чем выше покрытие в глубину, тем проще определять снипы, а вернее определять его качество, отличая реальный снип от фантомных артефактов.
3) Согласен с утверждением "Пятикратного охвата действительно достаточно, чтобы идентифицировать новый SNP. Ниже этого значения может стать сложнее автоматически определять новые SNP. Но в YSEQ каждый новый Y SNP проверяется вручную."
Но дело в том, что при указанном покрытии x15 мы должны иметь покрытие Y в среднем ~x7.5, а в реальности у 21066 покрытие чуть больше x2. И отличить хорошую мутацию от ложной автоматически становится очень проблемным. Да и вручную не всегда все однозначно. Потом приведу примеры.
С образцом 21066 вероятно просто случился сбой в YSEQ. Возможно надо его ресеквенировать и/или отослать новый образец.
Такие случаи мне попадались несколько раз и приходилось объяснять почему в YSEQ нашли "снип", а в YFull не нашли. И во всех случаях очень слабое покрытие и ошибки чтения.
Смотрим скриншоты. Желтым выделены отличия от референса.
YFull нашли, но забраковали следующие снипы:
A29613
https://drive.google.com/file/d/1rl3rsNSitIaW2dyjgwJCPPYIKW8Lgn-0/view?usp=sharingA29612
https://drive.google.com/file/d/1pB1ILhGkSya_5Tr0hySqNhC74Krirr74/view?usp=sharingКак видим, артефакты вокруг снипа мешают признать его реально существующим со 100% уверенностью.
Эвристика алгоритмов YFull бракует такие снипы. Причина - много шума на очень малом покрытии.
Эти артефакты можно считать ошибками чтения отдельных нуклеотидов и/или ошибками алгоритмов выравнивания исходных FASTQ. К выравниванию вернемся немного позже.
Дам еще несколько скриншотов от другого семпла, что интересно снипы имеют близкие номера, то есть образцы обрабатывались рядом.
A29623
https://drive.google.com/file/d/1fMxyF2sxocoTAf7Tmw_EfXnFItWSeHku/view?usp=sharingследующие два снипа не помню название семпла и самих снипов.
https://drive.google.com/file/d/1r7O8aCQN__zi71pEzhEaYubRtb6zpFgg/view?usp=sharinghttps://drive.google.com/file/d/1ntvwoeHnVSr8gKgfqVLrwPRuzDAhJKy2/view?usp=sharingДалее я провел небольшой эксперимент, скачав FASTQ семпла 21066 и перевыровняв их.
Всего получилось 3 бама:
1) Оригинальный, выровненный по hg38 с помощью классического BWA.
2) Выровненный с помощью bwa-mem2 по GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
3) Выровненный с помощью minimap2 по GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
Отличий в принципе получилось не так много, но пробежавшись по мутациям в IGV нашел один пример.
Дорожки в таком же порядке, как я перечислил выше. Обращает внимание как меняется покрытие и пропадает "снип". На этом примере выгодно выглядит minimap2, но это надо еще эксперементировать далее.
В целом же разницы между тремя файлами особой не заметил.
https://drive.google.com/file/d/1AC7XMUymSubeA1x8LgK-AfFr9x8k1cek/view?usp=sharingНиже статистика по покрытию этих трех файлов:
https://drive.google.com/file/d/1wo32xwuu0UUPNuNP9chqsW_3sOfN03Is/view?usp=sharingКак видим, среднее покрытие менее x3. На первом графике, где показан оригинальный файл из YSEQ покрытие немного завышено из-за того что принят в расчет PAR в используемом референсе.
Если не считать PAR, то покрытие 2.07-2.59.
Из дополнительных наблюдений - среднее качество маппирования у bwa - 20, а у bwa-mem2 - 27. minimap2 по MQ где-то между ними.
Итого. WGS400 очень неплохой тест за относительно небольшую стоимость. Томасу за него отдельное спасибо, тк это делает тесты NGS доступными бОльшему числу людей.
Вероятно техпроцесс не до конца отлажен или проблема с пересылаемым образцом и в результате иногда получается низкое покрытие. В любых лабораториях бывают косяки.
Возможно надо обсудить этот вопрос с Томасом по поводу повторного секвенирования.
В любом случае, даже такое покрытие позволяет точно разместить образец на филогенетическом дереве человечества. Единственные минусы малого покрытия - возможный пропуск приватных снипов из-за сомнения в их качестве.
Но при появлении рядом образца, в котором этот снип будет хорошо прочитан, в любом случае будет создан новый субклад. И второй минус малого покрытия - образец может не попасть в расчет возраста, так как требуется покрытие минимум тремя ридами определенного процента ComBED.
P.S. Все написанное выше - мое личное мнение.