АвторТема: FASTQ->BAM  (Прочитано 5758 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1381/-7
  • Ultimate Matriarchy
FASTQ->BAM
« : 30 Январь 2023, 21:06:10 »
На самом деле, можно собрать BAM и на домашней машине из того что у вас на флешке, ничерта не понимая как это работает. Но обязательным условием является уверенное владение командной строкой *nix. Под другими операционными системами биоинформатики не существует вообще.

Оффлайн NathanS

  • Сообщений: 1277
  • Страна: 00
  • Рейтинг +1202/-2
Re: FASTQ->BAM
« Ответ #1 : 30 Январь 2023, 21:10:20 »
На самом деле, можно собрать BAM и на домашней машине из того что у вас на флешке, ничерта не понимая как это работает. Но обязательным условием является уверенное владение командной строкой *nix. Под другими операционными системами биоинформатики не существует вообще.

Если использовать WGSExtract, то можно вообще ни в чем не разбираться. достаточно следовать инструкциям на английском. У программы может быть и интерфейс на русском, а так она вообще интуитивна - покликал пару кнопок и поличил результат.

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1381/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #2 : 30 Январь 2023, 21:14:21 »
Если использовать WGSExtract, то можно вообще ни в чем не разбираться. достаточно следовать инструкциям на английском. У программы может быть и интерфейс на русском, а так она вообще интуитивна - покликал пару кнопок и поличил результат.

не знал, что наука так шагнула  :o
в принципе, очень мило
если туда зашиты все обычные утилиты, чтобы и качество фасты посмотреть, и собрать, и порезать большой BAM на части
по идее, все это интегрировать для работы с данными высокого качества в один интерфейс - нетрудно

Оффлайн cheremis

  • Сообщений: 643
  • Страна: ru
  • Рейтинг +100/-7
  • Y-ДНК: N1a2b-N-FT256675
  • мтДНК: I1a1a
Re: FASTQ->BAM
« Ответ #3 : 30 Январь 2023, 21:16:52 »
видимо придётся отложить в долгий ящик , я распаковать файл смог , очень тяжёлый, но даже не знаю какой программой открыть.

Оффлайн NathanS

  • Сообщений: 1277
  • Страна: 00
  • Рейтинг +1202/-2
Re: FASTQ->BAM
« Ответ #4 : 30 Январь 2023, 21:21:01 »
не знал, что наука так шагнула  :o
в принципе, очень мило
если туда зашиты все обычные утилиты, чтобы и качество фасты посмотреть, и собрать, и порезать большой BAM на части
по идее, все это интегрировать для работы с данными высокого качества в один интерфейс - нетрудно

На счет проверки качества не знают, но да, программу грузит сама референсные геномы, собирает/выравнивает и вырезает файл  с Y и мито для YFull. Далее все элементарно перегружается через Google Drive  или подобные сервисы.

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1381/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #5 : 30 Январь 2023, 21:21:53 »
она содержит дистр питона наверное?

Оффлайн NathanS

  • Сообщений: 1277
  • Страна: 00
  • Рейтинг +1202/-2
Re: FASTQ->BAM
« Ответ #6 : 30 Январь 2023, 21:22:35 »
видимо придётся отложить в долгий ящик , я распаковать файл смог , очень тяжёлый, но даже не знаю какой программой открыть.

Уже упомянутый WGSExtract работает с FASTQ-файлами, а распоковывать вам ничего не надо. Врядли вы найдете что-то интересное там для вас.

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1381/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #7 : 30 Январь 2023, 21:22:46 »
видимо придётся отложить в долгий ящик , я распаковать файл смог , очень тяжёлый, но даже не знаю какой программой открыть.

если это дистр утилиты, про которую говорил NathanS, то тогда там наверняка и установщик под винду

Оффлайн NathanS

  • Сообщений: 1277
  • Страна: 00
  • Рейтинг +1202/-2
Re: FASTQ->BAM
« Ответ #8 : 30 Январь 2023, 21:24:37 »
она содержит дистр питона наверное?

не знаю, конечному пользователю об этом думать не надо. Все должно устанавливаться при установке программы. Я как-то пробовал и у меня все прошло на автомате. Есть файлы для установки и на Linux, и на WIndows, и на MacOS.

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1381/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #9 : 30 Январь 2023, 21:27:41 »
На счет проверки качества не знают, но да, программу грузит сама референсные геномы, собирает/выравнивает

интересно как она распознает парно-концевые и одноконцевые при нестандартном именовании файлов
ну адаптеры ладно, это можно и автоматом

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1381/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #10 : 30 Январь 2023, 21:31:52 »
поскольку там наверняка стандартная ильюминовская фаста, должно собраться на ура

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1381/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #11 : 30 Январь 2023, 21:33:36 »
интересно как она распознает парно-концевые и одноконцевые при нестандартном именовании файлов
ну адаптеры ладно, это можно и автоматом

завидую их упорству, коли им удалось перенести на винду все утилиты
небось mingw

Оффлайн AVBaz

  • Сообщений: 171
  • Страна: ru
  • Рейтинг +125/-0
  • Y-ДНК: R1a-Y35 (YP582+, YP1079+)
Re: FASTQ->BAM
« Ответ #12 : 30 Январь 2023, 22:44:45 »
Коллеги, наверное было бы полезным описать способы работы с FASTQ-файлами в отдельной теме, или даже в отдельном разделе форума. WGS-эра наступает... Поиском на форуме ничего подобного не нашёл.
Из некоторых сообщений выше, а также из сообщений в других ветках становится понятным, что задача создания BAM-файла нетривиальная. Это хорошо видно, например, из следующей цитаты:
Далее я провел небольшой эксперимент, скачав FASTQ семпла 21066 и перевыровняв их.
Всего получилось 3 бама:
1) Оригинальный, выровненный по hg38 с помощью классического BWA.
2) Выровненный с помощью bwa-mem2 по GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
3) Выровненный с помощью minimap2 по GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
Отличий в принципе получилось не так много, но пробежавшись по мутациям в IGV нашел один пример.
Дорожки в таком же порядке, как я перечислил выше. Обращает внимание как меняется покрытие и пропадает "снип". На этом примере выгодно выглядит minimap2, но это надо еще эксперементировать далее.
В целом же разницы между тремя файлами особой не заметил.

Пока, наверное, можно выделить 2 стандартных решения для неспециалиста:
1) Программа, рекомендуемая NathanS WGSExtract https://wgsextract.github.io/
2) Платное конвертирование YSEQ ($25). https://forum.molgen.org/index.php/topic,6323.msg555707.html#msg555707
Оплатить, судя по всему, можно в рублях https://forum.molgen.org/index.php/topic,6323.msg556234.html#msg556234

Также есть способ, которым владеет Valery https://forum.molgen.org/index.php/topic,242.msg561073.html#msg561073 Возможно, он потенциально пригоден к массовому использованию, но требуется описание )

Для желающих делать выравнивание самостоятельно можно попробовать порекомендовать какую-нибудь литературу (книги, методички и т.п.), если таковая имеется

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1381/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #13 : 30 Январь 2023, 23:14:58 »
Также есть способ, которым владеет Valery

я пользуюсь сейчас только bwa mem
что касается исчезновения снипа, полагаю, дело не в параметрах bwa
а в коллинге
даже если менялись только параметры выравнивания, но коллер вел себя по-разному, все равно первую причину ищите в коллере
вообще я настоятельно не рекомендую использовать для ридов обычной длины нестандартные параметры выравнивания
только если у вас сверхдлинные риды - тогда да

а вот коллер - это простор для тьюнинга

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1381/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #14 : 30 Январь 2023, 23:20:44 »
Для желающих делать выравнивание самостоятельно можно попробовать порекомендовать какую-нибудь литературу (книги, методички и т.п.), если таковая имеется

готовые рутины коллинга однородительских хромосом (У, мт) - всегда очень авторская вещь
все проекты деревьев, например ISOGG (прекращен) или YFull - используют свои авторские пайплайны
YFull вообще читает бам непосредственно, по сути делая собственный коллинг

я использую сырой пайлап самтулз
но это не идеальный вариант
был план перейти на пайлап из библиотеки seqan (он дозволяет получение ридов и их изящный мерджинг)
но сейчас я приостановил работы и скорее всего не возобновлю тк нет времени на биоинформатику
нельзя объять необъятное за одну жизнь

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.