АвторТема: FASTQ->BAM  (Прочитано 4519 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #30 : 31 Январь 2023, 12:31:40 »
Как бы то ни было, не вижу причин для нормальных пользователей отказываться от возможности самостоятельной обработки исходников.

я ориентировался на экономного пользователя
зачем платить врачу, когда можно скачать учебник?
и даже купить софтверный кардиограф и б/у узишный аппарат  ;D ;D ;D

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #31 : 31 Январь 2023, 12:34:06 »
Лучше сразу попробуй minimap2. От создателя bwa mem.
https://github.com/lh3/minimap2
https://pubmed.ncbi.nlm.nih.gov/29750242/

Цитировать
Note: minimap2 has replaced BWA-MEM for PacBio and Nanopore read alignment. It retains all major BWA-MEM features, but is ~50 times as fast, more versatile, more accurate and produces better base-level alignment. A beta version of BWA-MEM2 has been released for short-read mapping. BWA-MEM2 is about twice as fast as BWA-MEM and outputs near identical alignments.
https://github.com/lh3/bwa

звучит чертовски заманчиво

Оффлайн Srkz

  • Сообщений: 8462
  • Страна: ru
  • Рейтинг +4813/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Re: FASTQ->BAM
« Ответ #32 : 31 Январь 2023, 13:26:06 »
зачем платить врачу, когда можно скачать учебник?
и даже купить софтверный кардиограф и б/у узишный аппарат  ;D ;D ;D
Да, это кому как удобнее. Просто не хотел, чтобы пост воспринимался в духе "ни в коем случае ничего не трогайте"

Оффлайн Val_Metov

  • Сообщений: 1240
  • Страна: ru
  • Рейтинг +912/-2
  • Y-ДНК: J-Y94477
Re: FASTQ->BAM
« Ответ #33 : 31 Январь 2023, 15:20:37 »
Самый быстрый вариант который я пробовал - https://github.com/kaist-ina/BWA-MEME

BWA-MEME produces results identical to BWA-MEM2 (or original bwa-mem 0.7.17) and achieves 1.4x higher alignment throughput.
Seeding throughput of BWA-MEME is up to 3.32x higher than BWA-MEM2.
BWA-MEME builds upon BWA-MEM2 and includes performance improvements to the seeding.
BWA-MEME leverages learned index in suffix array search.
BWA-MEME also provides feature to accomodate various memory size in servers.


Правда идентичные данные с BWA-mem и BWA-mem2 не получились. У BWA-Meme чуть отличаются итоговые данные.

VCF генерирую с помощью Deepvariant https://github.com/google/deepvariant

Для любителей windows есть вариант от Microsoft - https://www.microsoft.com/en-us/research/project/snap/

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #34 : 31 Январь 2023, 17:21:39 »
Да, это кому как удобнее. Просто не хотел, чтобы пост воспринимался в духе "ни в коем случае ничего не трогайте"


ну по идее, сабж не критичен
ничо там не взорвецца, если перепутать пару снипов
а вот клиническая биоинфа - только с сертификатом
иначе аннотации для пациентов строго запрещены

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #35 : 31 Январь 2023, 17:22:55 »
VCF генерирую с помощью Deepvariant https://github.com/google/deepvariant

Для любителей windows есть вариант от Microsoft - https://www.microsoft.com/en-us/research/project/snap/

спс
не знал
я сильно отстал от жизни

оная неожиданно появилась и под виндоуз
немудрено
дети разработчиков виндоуз тоже просят есть  ;)

Оффлайн Val_Metov

  • Сообщений: 1240
  • Страна: ru
  • Рейтинг +912/-2
  • Y-ДНК: J-Y94477
Re: FASTQ->BAM
« Ответ #36 : 01 Февраль 2023, 14:06:33 »
Последнее время собирал с помощью bwa-mem2

bwa-mem2 mem -t $(nproc) -K 100000000 -Y -R "@RG\tID:1\tSM:R38\tLB:1\tPL:ILLUMINA" ~/WGSExtractv4/reference/genomes/hs38.fa.gz ~/WGS/xxx_1.fq.gz ~/WGS/xxx_2.fq.gz  | samblaster | samtools sort -@$(nproc) --no-PG -o xxx.bam && samtools index -@$(nproc) xxx.bam

+- 67 гб ram загрузка на машину из 48 потоков.

Не нужно особо специалистом быть, чтобы запустить такую команду. Предварительно надо индекс референса сделать.

bwa-meme запускал чуть по другому. Загрузка памяти заметно больше. Скорость раза  в 2 быстрее. Индекс там еще большего размера генерируется, все работает из оперативной памяти, поэтому и быстрее.

./bwa-meme_mode2 mem -7  -t $(nproc) -K 100000000 -Y ~/WGSExtractv4/reference/genomes/hg38.fa.gz ~/WGS/xxx_1.fq.gz ~/WGS/xxx_1.fq.gz | samtools sort -@24 --no-PG -o xxx.bam && samtools index -@$(nproc) xxx.bam


Запуск Deepvariant

BIN_VERSION=1.4.0
sudo docker run \
  -v ${PWD}/input:/input \
  -v ${PWD}/output:/output \
  -v ${PWD}/reference:/reference \
  google/deepvariant:${BIN_VERSION} \
  /opt/deepvariant/bin/run_deepvariant \
  --model_type WGS \
--ref /reference/hs38.fa.gz \
  --reads /input/xxx.bam\
  --output_vcf /output/xxx.Y.vcf.gz \
  --output_gvcf /output/xxx.Y.g.vcf.gz \
  --num_shards $(nproc) \
  --regions chrY \ (опционально, если только Y нужен).
  --intermediate_results_dir /output/intermediate_results_dir




 

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5994
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: FASTQ->BAM
« Ответ #37 : 09 Март 2023, 12:51:31 »
VCF генерирую с помощью Deepvariant https://github.com/google/deepvariant
Спасибо за наводку! На стремных и очень длинных (до 125000bp) нанопорах сделал очень красивый коллинг и просто порвал GATK.
Вывод самтулз для одной сложной позиции:
1A 4T 15G 2DEL 1AT 1ATG 2AG
Вывод GATK 2G :) Чисто, но мало)
Вывод дипвариант 13G
Советую этот инструмент!
Правда долго. Запускал на половине проца домашнего компа - игрек обработал за 20 часов.
Надо бы сравнить на обычных WGS.

Оффлайн Val_Metov

  • Сообщений: 1240
  • Страна: ru
  • Рейтинг +912/-2
  • Y-ДНК: J-Y94477
Re: FASTQ->BAM
« Ответ #38 : 22 Апрель 2023, 11:59:17 »
deepvariant-GPU-GUI

https://github.com/antomicblitz/deepvariant-GPU-GUI


Вопрос к Владимиру. Какой референс HG38 для загрузки на Yfull посоветуете?
https://disk.yandex.ru/i/eSwN2AJd7C-TIA

Обычно по старинке использую вариант от Nebula, но может есть смысл выбрать другой вариант?

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5994
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: FASTQ->BAM
« Ответ #39 : 22 Апрель 2023, 13:16:43 »
deepvariant-GPU-GUI

https://github.com/antomicblitz/deepvariant-GPU-GUI


Вопрос к Владимиру. Какой референс HG38 для загрузки на Yfull посоветуете?
https://disk.yandex.ru/i/eSwN2AJd7C-TIA

Обычно по старинке использую вариант от Nebula, но может есть смысл выбрать другой вариант?
GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
Последнее время использую именно его по совету создателя bwa и minimap.
https://lh3.github.io/2017/11/13/which-human-reference-genome-to-use

PS А зачем нужен GUI? Проще же написать команду в консоли, чем тыркать мышку.

Оффлайн Val_Metov

  • Сообщений: 1240
  • Страна: ru
  • Рейтинг +912/-2
  • Y-ДНК: J-Y94477
Re: FASTQ->BAM
« Ответ #40 : 22 Апрель 2023, 14:26:37 »
deepvariant-GPU-GUI

https://github.com/antomicblitz/deepvariant-GPU-GUI


Вопрос к Владимиру. Какой референс HG38 для загрузки на Yfull посоветуете?
https://disk.yandex.ru/i/eSwN2AJd7C-TIA

Обычно по старинке использую вариант от Nebula, но может есть смысл выбрать другой вариант?
GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
Последнее время использую именно его по совету создателя bwa и minimap.
https://lh3.github.io/2017/11/13/which-human-reference-genome-to-use

PS А зачем нужен GUI? Проще же написать команду в консоли, чем тыркать мышку.
Спасибо!

GUI для слабаков)

Оффлайн Saken

  • Сообщений: 464
  • Страна: kz
  • Рейтинг +287/-0
  • YFull: YF079031
  • Y-ДНК: C3d [C-Z33001], R1a [R-Y62055], C3x*
  • мтДНК: D4g1* & F1b & M10a1
Re: FASTQ->BAM
« Ответ #41 : 22 Апрель 2023, 18:40:24 »
 ;D ;D  :D
« Последнее редактирование: 22 Апрель 2023, 19:03:10 от Saken »

Оффлайн Val_Metov

  • Сообщений: 1240
  • Страна: ru
  • Рейтинг +912/-2
  • Y-ДНК: J-Y94477
Re: FASTQ->BAM
« Ответ #42 : 25 Апрель 2023, 01:10:35 »
mm2-fast

https://github.com/bwa-mem2/mm2-fast

mm2-fast is an accelerated implementation of minimap2 on modern CPUs. mm2-fast accelerates all the three major modules of minimap2: (a) seeding, (b) chaining, and (c) pairwise alignment, achieving up to 1.8x speedup using AVX512 over minimap2. mm2-fast is a drop-in replacement of minimap2, providing the same functionality with the exact same output. In the current version, all the modules are optimized using AVX-512 and AVX2 vectorization. Detailed benchmark results are available in our publication in Nature Computational Science (https://www.nature.com/articles/s43588-022-00201-8).

strobealign: A fast short-read aligner
https://github.com/ksahlin/StrobeAlign
https://www.biorxiv.org/content/10.1101/2021.06.18.449070v4.full

Our benchmarks on the four additional genomes drosophila, maize, CHM13, and rye broadly show similar results to our experiments on hg38. That is, on most datasets with read lengths 150nt or longer, strobealign and BWA-MEM have substantially higher accuracy than the other aligners (Suppl. Fig. S12). For example, strobealign is slightly more accurate than BWA-MEM (about 0.05%) on drosophila and slightly less accurate (at most 0.11%) than BWA-MEM on the new human genome CHM13 (Suppl. Fig. S12C). In addition, Strobealign is consistently 7-9 times faster than BWA-MEM on the maize, CHM13, and rye genomes (Suppl. Fig. S13) and 4-5 times faster than BWA-MEM2 and uses 2-3 times less peak memory than BWA-MEM2 (Suppl. Fig. S14).


SNAP – Scalable Nucleotide Alignment Program
https://www.microsoft.com/en-us/research/project/snap/

SNAP is a program that is part of a gene sequencing pipeline.  It takes data from gene sequencing hardware that consists of short chunks of DNA (typically 70-300 base pairs long) called reads and determines where, how well and how unambiguously they match to a given reference genome.  This is a computationally challenging problem because reference genomes are big (the human genome is over 3 billion base pairs long) and are often highly repetitive.

SNAP is from 2-5x faster than commonly used aligners like BWA-mem2 and Bowtie2, and 20x-nearly 30x faster than Novoalign.  When used with Haplotype Caller from the Genome Analysis Toolkit, SNAP produces better concordance with known-truth sets than other aligners for most of the genome-in-a-bottle and Illumina Platinum genomes.

SNAP is also more full-featured than other aligners.  In addition to taking FASTQ (unprocessed reads) as input, it also accepts SAM and BAM (aligned reads).  Other aligners produce unsorted SAM (or in the case of Novoalign unsorted BAM) output, and require the use of other tools to compress, sort, mark duplicates and index the final output file.  SNAP does all of these tasks in a single tool, and is usually more than 10x faster than the standard samtools/Picard pipeline.
« Последнее редактирование: 25 Апрель 2023, 01:17:59 от Val_Metov »

Оффлайн Val_Metov

  • Сообщений: 1240
  • Страна: ru
  • Рейтинг +912/-2
  • Y-ДНК: J-Y94477
Re: FASTQ->BAM
« Ответ #43 : 21 Май 2023, 11:09:30 »
На Ryzen 9 7950 (16/32 5600 мегагерц) + Nvidia 2080 ti

Minimap2 собрал полный геном на HG38 чуть больше чем за час.
Deepvariant только Y обработка ~ 4 минуты. Весь геном чуть больше 2х часов.

Оффлайн MikSa

  • Сообщений: 297
  • Страна: by
  • Рейтинг +59/-2
  • Соколовские герба Холева
  • Y-ДНК: I-А2423
Re: FASTQ->BAM
« Ответ #44 : 21 Май 2023, 11:49:33 »
У меня HG37 считался 48 часов на i7-6700к, но со слабой видеокартой. ))

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.