Глубина bigY нельзя сравнивать напрямую с глубиной WGS. Технологии отличаются. BigY амплифицируют определенные (наиболее важные) участки Y хромосомы и это позволяет увеличить глубину. Но это дает не только плюсу но и минусы. На это, в том числе, Томас Кран, как разработчик BigY обращал внимание.
Также нельзя напрямую сравнивать 30x 150 bp с 15x 400 bp. Или например Pac Bio с их длинными прочтениями. У них всего несколько прочтений но гигантская длина. Чем длиннее участок тем больше шанс, что при сборке не будет ошибка итд.
Автору темы советую самостоятельно посмотреть обучающие курсы на stepetic, coursera итд. Бионформатика, сборка генома, секвенирование, там много информации. Займет время, но иного выхода нет.
Я не программист, мне просто интересны и технологии и работа с данными и история и генеалогии. Опишу как я сам понимаю.
Итогом процесса секвенирования генома должен стать файл, который содержит все ваши хромосомы. Хромосомы разного размера. В целом +- 3 млрд последовательностей нуклеотидов. Например Y хромосома имеет координаты от 1 до (примерно) 57 млн. SNP бывают разные, но упрощенно можно сказать, что они точечные, происходят в 1 позиции. Например мой фамильный SNP находится по адресу 11 502 003 (A в T).
Процесс секвенирования основан на последовательности действий. Грубо говоря это экстракция и само секвенирование. Экстракция это подготовка до секвенатора, всякие реактивы итд. А дальше уже все зависит от особенностей конкретного секвенатора. Каждый секвенатор имеет технологические ограничения по минимальной длине прочтения. BigY это (почти всегда) 100 bp. т.е. 100 нуклеотидов. Весь геном будет разбит на очень большое мелких фрагментов с длиной 100 нуклеотидов. Различают SE (Single end) и PE (Pared end). Смысл PE в том, что секвенатор прочитывает сразу с двух концов по 100 нуклеотидов. Вроде должно получится 200, но на самом деле не так. 100 с каждого края не означает непрерывную последовательность.
У Nebula (чаще всего) прочитывается 150 bp. Тоже PE. YSEQ - 400 bp, но у них не PE а SE.
Почему это важно?
Представьте ситуацию, у вас очень большое количество маленьких кусочков пазла и вам нужно нужно как-то это собрать. Логично, что чем больше размер кусочка, тем вам будет легче.
Сборка генома эта тоже как собирание пазла. Сборщик (чаще всего используют bwa-mem2) перебирает огромной количество мелких частичек и на выходе дает готовый файл, чаще всего формата Bam. Сборка бывает 2х типов де ново. Т.е. с нуля. Это очень сложно и редко кто этим занимается. Если только не тесты Pac Bio. В основном сборка идет на готовый референс или эталон. Это уже собранный ученным образец генома. Актуальная версия H38. Именно такую версию сейчас использую и в FTDNA и Nebula и YSEQ. А вот Данте выдает, до сих пор, H37.
Сборщик конечно не идеален и иногда допускает ошибки. Вероятность ошибок снижается, если размер участков больше. Особенно когда возникают редкие SNP. Сборщик может ошибиться из нестандартных значений и чем длиннее прочтение тем меньше ошибок. В идеале.
Если вы откроете любую ветку на Yfull и нажмете info то в разделе образцы вы увидите характеристики качественные. Например, типичное значение для Nebula - 17X, 23.3 Mbp, 150 bp. 17x это сколько раз прочитался каждый участок. Почему эта цифра важна? Никто не может гарантировать, что секвенатор прочитает всю вашу последовательность. Чтобы уменьшить шансы на пропуски приходится проходить участки много раз. Чем больше тем лучше. Например у Nebula есть 30x и 100x. Это средние значения. Для Y эти цифры всегда ниже. Всегда есть шанс, что некоторые места останутся не затронутыми.
23,3 Mbp это грубо говоря 99% Y хромосомы, доступный на сегодня. У FTDNA эта цифра коло 18 - 18,5. Разница примерно 25%. Только стоит учитывать, что 99% включает и участки прочитанные всего 1 раз. Это мало. Хотя бы 3-4 было бы, это уже что-то. Но если например, у ваших совпаденцев тоже будут SNP на этих слабо прочитанных участках, то вам их зачтут. Или вы можете дополнительно протестировать конкретные места в YSEQ (18$ за 1 тест).
Длина прочтение влияет еще на STR маркеры. Некоторые маркеры расположены на участке Y хромосомы который значительно превышает стандартные 100-150. Например после теста Nebula, обычно, Yfull достает около 85 из Y111 набора. YSEQ говорит, что их 400bp тест дает возможность вытащить почти все маркеры.
FTDNA обходит эти ограничения дополнительным тестом на Y111 маркеров. Т.е. SNP отдельно, маркеры отдельно. Как по мне, то если у вас есть SNP, то Y37 набора вполне достаточно, чтобы прицелиться в ближайших совпаденцев у которых нет BigY\WGS.
150 bp это длина прочтения 1го. Т.е. размер кусочка пазла.
Вбейте в гугл, например, длина прочтения 150 bp. Много информации есть.
Cтоит еще раз напомнить, что WGS это BigY + FF + MtDNA + Bam.