Решил чуть смоделировать ситуацию 4x для анализа Y-ДНК.
Для этого вырезал из примера 30x BAM файла производства Dante Labs (полученном на оборудовании BGI, и да - 150 bp) рандомно куски, чтобы получить покрытие 4x.
Я использовал
samtools view -s 0.133, но правильнее было бы конечно резать раньше, на уровне FastQ (я только не придумал, как учесть парность).
В-общем, для примера - у приватных снипов и снипов уровня верхнего субклада (это пример!) статистика по количеству прочтений примерно такая:
Из 42 снипов:
8 - вообще не прочитаны
10 - имеют только 1 прочтение (но все совпадают)
24 - имеют 2 и более (до 5) прочтений (также все совпадают).
Для снипов, попадающих в регион Y-ДНК, учитываемый в YFull для определения возраста, статистика примерно такая:
Меньшее количество вообще не прочитанных снипов, вероятно, объясняется более хорошим качеством регионов (для возраста) для маппирования.
Из 20 снипов не прочитаны вообще только 2, остальные (прочитанные) совпали (разумеется) с исходным .bam файлом.
По идее, не самый плохой результат!
Получается, что примерно половина снипов читается на уровне не хуже 2-х прочтений.
Вероятно, такое вполне можно использовать, по крайней мере,
для первичного анализа дальних родственников - похоже, вполне можно будет примерно оценить дальность родства, правда, точность (из учёта точности на снип) скорее будет в районе 200-300 лет.
И, разумеется, едва ли это будет пригодно для выделения новых приватных снипов, но мне лень пока делать такой анализ.
P.S. Да, забыл сказать - mtDNA, разумеется, осталась в превосходном количестве прочтений (ну что такое 1000х против 7000х - в-общем же, один фиг дофига прочтений
Хм, ещё дополнение про mtDNA - выборочно глянул - скорее речь о 300 прочтениях против примерно 2000. Но всё равно снипы можно корректно выделить.
Единственное замечание - в готовом виде в RSRS или rCRS вам никто mtDNA не предоставит - надо будет самим обрабатывать и считать, а нумерация снипов там немного может отличаться в зависимости от маппирования - и это также надо будет учесть.