Файл BAM готовы предоставить только на жестком диске (за 59 евро), иначе предлагают скомпилировать его самостоятельно (после получения ссылок на FASTQ-файлы) при помощи приложения EvE Premium на Sequencing.com (19,99 $).
Если кто соберется сам компилировать BAM из FastQ, то на основании имеющегося у меня образца Dante Labs из числа недавно полученных, для генеалогических целей могу порекомендовать следующее.
Внимание! Образцы из Dante Labs могут сильно отличаться - у меня нет общей статистики по ним, соответственно, все рекомендации могут быть использованы только на свой страх и риск.Для сборки, похоже, лучше всего использовать референс
GCA_000001405.15_GRCh38_no_alt_plus_hs38d1_analysis_set.fna.gz, который содержит GRCh38 без альтернативных регионов, но содержит последовательности-приманки для удаления мусорных кусков ДНК (ну типа от загрязнений вирусами и пр). Я попробовал почти 10 разных референсов Hg19 и Hg38 - и у данного получалось наиболее простое выравнивание, без лишних артефактов.
При этом, для выравнивания можно использовать либо бесплатный
https://usegalaxy.eu/ (к тому же, мне он кажется
более надежным, чем американский sequencing.com). Кратко схема действий для него:
1. Зарегистрироваться (да, кстати - лучше использовать браузер Google Chrome)
2. Загрузить свои FastQ файлы, используя какой-нибудь FTP клиент (там есть инструкция), и импортировать файлы после загрузки по FTP.
3. Загрузить референсную последовательность, указанную выше.
Внимание - после всей загрузки проверить, что среди hidden файлов нет загруженных в распакованном виде! Место на usegalaxy ограниченно 250 Гб, поэтому распакованные файлы могут его тут же "сожрать". Если есть такие hidden распакованные файлы - их можно и нужно безболезненно удалить.
4. Выполнить выравнивание (сформировать BAM) используя
Map with BWA - map short reads (< 100 bp) against reference genome (Galaxy Version 0.7.17.4) и выбрав загруженную ранее референсную последовательность и оба FastQ файла (фактически, выполнится bwa sampe, с дальнейшей сортировкой и индексированием). Вполне можно всё делать с дефолтными настройками!
5. По получении результата загрузить к себе BAM файл, и обработать его перед передачей в YFull согласно инструкции, которая проскакивала ранее.
Либо выполнить выравнивание самостоятельно. Опять же, в той инструкции, что проскакивала ранее, есть описание установки Ubuntu-подсистемы под Windows (либо просто поставить себе Ubuntu или иную *nix-операционку на какой-либо сервер),
1. Установить утилиты samtools и bwa (для BAM этого будет достаточно). Можно ориентироваться на инструкции типа
https://www.biostars.org/p/328831/ (за исключением Export To Path And Refresh - оно чуть иначе устроено, вроде как).
2. Выполнить выравнивание, используя (далее - код для примера. Референс, упомянутый выше, здесь именован как GRCh38nap1.fna.gz):
bwa index GRCh38nap1.fna.gz
bwa aln -t 256 GRCh38nap1.fna.gz R1.fastq.gz > R1-38.sai
bwa aln -t 256 GRCh38nap1.fna.gz R2.fastq.gz > R2-38.sai
bwa sampe -P GRCh38nap1.fna.gz R1-38.sai R2-38.sai R1.fastq.gz R2.fastq.gz > R38.sam
samtools view -@ 256 -bS R38.sam > R38v.bam
samtools sort -@ 256 -O bam -o R38.bam -T R38temp R38v.bam
samtools index -@ 256 R38.bam
(примечание - число 256 везде, где оно есть, означает количество потоков обработки (multi-threading) - это зависит от количества потоков процессоров/ядер вашего сервера/компа и его
следует поменять в зависимости от Ваших условий - например, для домашней машины вполне может хватить и значения 4 или 8 ).
3. И опять же, обработать полученный файл по инструкции, которая проскакивала ранее.
Для предварительного просмотра полученного файла можно использовать браузер
IGV и иные утилиты.
Выделение снипов и инделов - отдельный разговор. В данном случае (материал из Dante Labs) я бы просто рекомендовал далее отправить BAM в YFull.
Попробовал и иные инструменты для выравнивания (hisat2, bowtie2, NextGenMap и некоторые другие) - они давали бОльшее количество артефактов в генерируемом файле, равно как и bwa mem (что странно, поскольку вроде его использует сам Dante Labs). На данный момент bwa sampe показал лучшие результаты, а на втором месте bwa bwasw.
Вероятно, кто-то из маститых биоинформатиков меня поправит (особенно, если есть статистика по Dante Labs), но считаю, что хоть какую-то инструкцию хотелось бы людям дать - глядишь, ещё к чему-нибудь полезному это приведёт