Для однотипных референсов я так и делал, но когда в дело вступает YSEQ там целый зоопарк разных версий начиная со 100 ридов и до 150. Плюс генерация референса занимает пару минут и я решил каждый раз создавать. В масштабах сборки всего генома это особо не влияет.
Согласен что пару минут не утянет, и можно генерить индекс каждый раз заново, с учетом возможного изменения входного параметра "-I".
Но при перегоне CRAM/BAM реф не нужен, если пользоваться рекомендованным алгоритмом (collate вместо view):
samtools collate -u -O -@ 80 HG01494.cram col_HG01494 | samtools fastq -@ 80 -1 HG01494.1.fastq.gz -2 HG01494.2.fastq.gz -s HG01494.S.fastq.gz -nКонечно если не сильно влияет на скорость. Не уверен почему Рэнди использует при перегоне именно view и не знаю будет ли результат аналогичен использованию collate. Возможно у Рэнди свои соображения.
Я с этими RG так и не разобрался. Хотел с fastq забирать часть заголовка и туда внедрять. Но в итоге забил.
Использование @RG является хорошим тоном и используется для автоматического получения уникального имени семпла при автоматической обработке, а так же при формировании сравнительных файлов VCF значение из ID используется для обозначения столбцов. Кстати, Томас игнорирует заполнение этого поля.
"-B" разве это не относится к установке пенальти при выравнивании и этот параметр по умолчанию 4 вроде.
Вот с этим надо бы разобраться скрипте. Возможно я в чем-то ошибаюсь, но мне кажется нельзя применять эту опцию с таким значением.
Насчет научников, могу помочь тоже. Если скрипт поднастроить под эти конкретные задачи.
Спасибо, напишу в личку. Скрипты накидал. Опубликую здесь, возможно кому пригодятся. Грубые, без циклов, но суть понятна. Команду перегонки CRAM/BAM->FASTQ привел выше в этом сообщении.
Он что-то не очень хвалил тоже YSEQ методы сборки.
Возможно из-за того что выравнивает без использования @RG, fixmate и markdup?