АвторТема: FASTQ->BAM  (Прочитано 5217 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #15 : 30 Январь 2023, 23:23:45 »
Для широкого использования возможен выбор, например GATK, samtools, freebayes - первое что приходит в голову
основные траблы касаются повторяю не сборки, а коллинга с использованием указанного хозяйства

Оффлайн AVBaz

  • Сообщений: 171
  • Страна: ru
  • Рейтинг +125/-0
  • Y-ДНК: R1a-Y35 (YP582+, YP1079+)
Re: FASTQ->BAM
« Ответ #16 : 31 Январь 2023, 07:40:33 »
Для широкого использования возможен выбор, например GATK, samtools, freebayes - первое что приходит в голову
основные траблы касаются повторяю не сборки, а коллинга с использованием указанного хозяйства
Может быть неспециалистам лучше и не вмешиваться в процесс создания BAM-файлов? Нет риска, что насоздают таких файлов, которые филогенетическое древо исказят до неузнаваемости? Или обезьяна с гранатой неспециалист при создании BAM-файла максимум может лишь добавить несколько виртуальных снипов, что не сильно критично?
« Последнее редактирование: 31 Январь 2023, 09:11:44 от AVBaz »

Оффлайн Val_Metov

  • Сообщений: 1242
  • Страна: ru
  • Рейтинг +913/-2
  • Y-ДНК: J-Y94477
Re: FASTQ->BAM
« Ответ #17 : 31 Январь 2023, 09:12:04 »
Самый простой способ это конечно WGSExtrach V4. Авторов у программы несколько, но сейчас активно развитием занимается Рэнди Харр. Он есть в FB, очень разумный контактный человек.

Желательно комп\ноутбук 8+ потоков и 16 гб оперативной памяти. Пойдет и Windows и Linux (Ubuntu, Debian итд.) и MacOS. С apple M1 (итд) иногда бывают проблемы.
Самое частое, для чего используется программа, это оценка качества и выделение аутосом. Также можно быстро вырезать мито и Y, для отправки на Yfull. Можно из Bam сделать Fastq. Из Fastq пересобрать Bam на любом референсе. Также есть утилиты для определение Y и Мито гаплогрупп, не так глубоко как это делает Yfull, но иногда полезно. Особенно при обработке научных образцов.

В программе можно включить отладку и все команды которые используются будут сохранятся. Можно проанализировать и сами использовать.
На 6\12, 16 гб Ram машине (ноутбук на Ryzen 5600h) около суток собирается геном. Программа использует bwa-mem.

Если есть более мощная машина, можно попробовать bwa-mem2. Требует больше ресурсов, особенно оперативки. Собирается примерно в 2 раза быстрее.
Еще более быстрый способ - bwa-meme. Еще в 2 раза быстрее, но оперативной памяти надо много. Желательно 128 гб+.

Могу выложить комманды, которыми сам пользуюсь.

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 6009
  • Страна: ru
  • Рейтинг +4220/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: FASTQ->BAM
« Ответ #18 : 31 Январь 2023, 09:55:46 »
Если на руках только FASTQ.

1) Использование WGS Extract
Дистрибутив. Мануал.
Достаточно простая в использовании программа. Установить. Прочитать по диагонали мануал. Скачать свои FASTQ на локальный комп. Скормить их программе. Запастись булками, кофе и т.п. В зависимости от "железа" ждать от нескольких часов до пары суток.
Недостатки:
а) скачивание больших файлов на локальный компьютер.
б) необходимость в установке и изучении программы. Времени особо не займет, но все же...
в) Длительный процесс выравнивания, требовательный к "железу".
Плюсы:
а) Все нужные в дальнейшем файлы будут под рукой, включая аутосомные файлы, для загрузки в другие сервисы.
б) Пересобрать геном в другой системе координат не составит труда. Думаю в скором будущем, разрыв в объеме данных, полученных из WGS будет сильно отличаться от таргетных игреков по типу FTDNA.

2) Использование YSEQ
Заказываем услугу маппирования, стоимостью $25. Оплатить можно в рублях картой выпущенной в РФ через YFull.
Для выравнивания YSEQ необходимо передать свои файлы FASTQ. Для этого их можно загрузить в любое облачное хранилище данных и скинуть им ссылку. Или, если файлы доступны для скачивания в личном кабинете лаборатории, как например у Данте Лабс, то дать YSEQ доступ в личный кабинет и они сами скачают ваши файлы.
Недостатки:
а) если ваши файлы изначально недоступны для скачивания в личном кабинете лаборатории, а переданы на флешке, то необходимо куда-то их загружать. Это большой объем данных и насколько я знаю, бесплатных облачных хранилищ для такого объема нет. Но  можно купить к примеру дополнительное место на яндекс диске на 1 месяц за небольшую плату.
Плюсы:
а) Простая передача данных в YFull после окончания выравнивания. Достаточно присоединиться к группе YFull на сайте YSEQ и вам придет емейл со ссылкой для подтверждения трансфера. Заказ в YFull будет оформлен с небольшой скидкой.
б) Готовый файл с аутосомами в формате 23andMe, который подойдет для загрузки на разные коммерческие и бесплатные сервисы.

3) Выравнивание в YFull. Такой услуги сейчас нет. Сервис просто не заточен под это направление. Но поступает много просьб, поэтому в дальнейшем возможно рассмотрим этот вариант. Пока нет.

Может что-то упустил. Буду рад если кто-то дополнит, исправит и т.п.


« Последнее редактирование: 15 Февраль 2023, 12:46:37 от Semargl »

Оффлайн Val_Metov

  • Сообщений: 1242
  • Страна: ru
  • Рейтинг +913/-2
  • Y-ДНК: J-Y94477
Re: FASTQ->BAM
« Ответ #19 : 31 Январь 2023, 10:05:29 »
Опция с выравниванием на Yfull и одновременным размещением на древе будет очень интересна. Добавьте туда же аутосомы, которые протестированные сами смогут загрузить на ftdna\Mh\GM\Genotek. 1500 руб +- вполне разумная плата.

Аутосомы которые дают YSEQ напрямую загружаются только на Gedmatch. Для загрузки на другие сервисы нужно легкое и быстрое преобразование в DNA Kit Studio. Меньше минуты займет.

Я бы еще добавил специфическую опцию. Разрешение на использование данных для исследований. С указанием каких-то анкетных данных, этносов, по здоровью итд. Для многих это табу, но лично я за развитие, я готов свои данные для развития науки предоставить.

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 6009
  • Страна: ru
  • Рейтинг +4220/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: FASTQ->BAM
« Ответ #20 : 31 Январь 2023, 10:26:03 »
Аутосомы которые дают YSEQ напрямую загружаются только на Gedmatch. Для загрузки на другие сервисы нужно легкое и быстрое преобразование в DNA Kit Studio. Меньше минуты займет.
Перевод строк или что-то другое?

Оффлайн Val_Metov

  • Сообщений: 1242
  • Страна: ru
  • Рейтинг +913/-2
  • Y-ДНК: J-Y94477
Re: FASTQ->BAM
« Ответ #21 : 31 Январь 2023, 11:06:46 »
Аутосомы которые дают YSEQ напрямую загружаются только на Gedmatch. Для загрузки на другие сервисы нужно легкое и быстрое преобразование в DNA Kit Studio. Меньше минуты займет.
Перевод строк или что-то другое?
Формат правильный
# rsid   chromosome   position   genotype
rs114420996   1   58814   GG
rs548049170   1   69869   TT

Но что там с номенклатурой. Вот пример вывода DNA Kit Studio. Это по плохому тесту, с покрытием Y x9.

> The source RAW file contains 1478502 SNPs
> Template read
> The template contains 635966 SNPs
> The output RAW file contains 635966 SNPs

Шаблон выбран 23andme v5

Т.е. набор снипов у YSEQ шире. Но если в DKS выбрать AllRawFormats_ByPosition, тогда такой вывод
> The source RAW file contains 1478502 SNPs
> Template read
> The template contains 1784791 SNPs
> The output RAW file contains 1784791 SNPs

Я на GM загружаю то, что дает YSEQ, а на остальные сайты обрезанный вариант 23andme v5.


Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #22 : 31 Январь 2023, 11:35:02 »
Может быть неспециалистам лучше и не вмешиваться в процесс создания BAM-файлов? Нет риска, что насоздают таких файлов, которые филогенетическое древо исказят до неузнаваемости? Или обезьяна с гранатой неспециалист при создании BAM-файла максимум может лишь добавить несколько виртуальных снипов, что не сильно критично?

Дело в том что неаутентичность заметит yFull в любом случае по росту гомоплазии, которую такой образец создает с другими. Есть конечно виды ошибок, которые достоверно выявить нельзя, например фантомный приват. Но обычно серьезные проблемы с сиквенсом приводят и к массе других ошибок, которые выявляются как проблемный образец.

Если в параметры bwa-mem не вмешиваться, не менять вес открытия и расширения гэпа итп, то ничего не напортите. Как правило, вмешательство в иные параметры сборки кроме параметров выравнивания, ничего не поменяет: она или пойдет или не пойдет вообще.

Ну, как вариант, вы бы могли подпортить результат подсунув в качестве референса только Y: если вы собираете полный геном, то некоторые чтения с X присобачатся к Y. Но полагаю, при создании индекса bwa вы бы использовали умолчания и грузили бы полный геном, то есть и подобный путь к ошибке исключен. Там сложно напортить руками, не зная что именно и как надо портить  ;D

Некоторые проблемы могут быть, если придется резать нестандартные адаптеры, то есть еще до сборки. И вообще истолкование качества может быть иногда проблемой. Но я предполагаю, что у вас на руках вменяемая фаста. После сборки, при сортировке BAM, тоже можно промахнуться командой и тогда при некоторой кривой реализации вы потеряете деланный сутки файл и придется все заново. Но опять-таки, все это можно обкатать на карликовой части генома, а потом собирать боевое количество фасты.

Я уже говорил, что основную и реальную проблему представляет коллинг, а не сборка. Но коллинг уфулл делает сам.

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #23 : 31 Январь 2023, 11:44:12 »
Как вариант, перед сборкой можно конвертировать небольшой кусок какого-нибудь тестового BAMа в фасткю и именно эту фасту скормить сборщику (соберет очень быстро, и кофе не успеете выпить!). Если ваша программа DNAExtract  такая умная, то может сделать коллинг, и вы сами сравните снипы этого куска со снипами исходного бама на том же куске. Идеальный тест!

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #24 : 31 Январь 2023, 11:51:24 »
соберет очень быстро, и кофе не успеете выпить!

хммм.. я собираю на 180-ядерном сервере с большим объемом памяти, возможно на домашней машине немножко медленнее
многопоточность реализую как запуск bwa одновременно во многих процессах скриптом
Но я никогда не разрешаю bwa более 3 потоков на образец!
так что если образец 1, все равно быстро будет!

Совет: НИКОГДА не разрешайте bwa использовать более 3 потоков на образец Y! качество может упасть
возможно в последних версиях это поправили, не знаю. Но лет 5 назад эмпирически этот совет был очень дельным.

На полном геноме возможно сейчас и стоит пробовать больше потоков. Вот не интересовался вопросом как это поменялось. Возможно у Володи (Семаргла) есть наблюдения.

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #25 : 31 Январь 2023, 11:59:22 »
Кто использует DNAExtract гляньте параметр -@ (число потоков)
возможно они намастачились безопасно это делать и бОльшим числом
вообще воруйте у них команды, как выше советует Валерий (Val_Metov), это очень разумное решение
у них наверняка best practices
крайне полезные советы по любому вопросу даст Володя (Семаргл)
мой опыт мог сильно устареть, мало слежу за новостями

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 6009
  • Страна: ru
  • Рейтинг +4220/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: FASTQ->BAM
« Ответ #26 : 31 Январь 2023, 12:04:54 »
На полном геноме возможно сейчас и стоит пробовать больше потоков. Вот не интересовался вопросом как это поменялось. Возможно у Володи (Семаргла) есть наблюдения.
Обычно, чтоб процесс маппирования не мешал и не кушал ресурсы, запускаю ±80 потоков на WGS до 100Gb. Но использую сейчас bwa-mem2 в основном. Там подход несколько другой. Вообще, на современных тестах думаю стоит уже перейти на minimap, но что-то руки не доходят.

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Re: FASTQ->BAM
« Ответ #27 : 31 Январь 2023, 12:12:46 »
Обычно, чтоб процесс маппирования не мешал и не кушал ресурсы, запускаю ±80 потоков на WGS до 100Gb. Но использую сейчас bwa-mem2 в основном. Там подход несколько другой. Вообще, на современных тестах думаю стоит уже перейти на minimap, но что-то руки не доходят.

а, вот видишь, я отстал
c bwa-mem скажем 10 потоков уже делали кое-что не так
но я последний раз экспериментировал очень давно и с тех пор не менял настроек

пасипки, попробую bwa-mem2

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 6009
  • Страна: ru
  • Рейтинг +4220/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: FASTQ->BAM
« Ответ #28 : 31 Январь 2023, 12:20:40 »
Обычно, чтоб процесс маппирования не мешал и не кушал ресурсы, запускаю ±80 потоков на WGS до 100Gb. Но использую сейчас bwa-mem2 в основном. Там подход несколько другой. Вообще, на современных тестах думаю стоит уже перейти на minimap, но что-то руки не доходят.

а, вот видишь, я отстал
c bwa-mem скажем 10 потоков уже делали кое-что не так
но я последний раз экспериментировал очень давно и с тех пор не менял настроек

пасипки, попробую bwa-mem2
Лучше сразу попробуй minimap2. От создателя bwa mem.
https://github.com/lh3/minimap2
https://pubmed.ncbi.nlm.nih.gov/29750242/

Цитировать
Note: minimap2 has replaced BWA-MEM for PacBio and Nanopore read alignment. It retains all major BWA-MEM features, but is ~50 times as fast, more versatile, more accurate and produces better base-level alignment. A beta version of BWA-MEM2 has been released for short-read mapping. BWA-MEM2 is about twice as fast as BWA-MEM and outputs near identical alignments.
https://github.com/lh3/bwa

Выбор варианта рефа (важно и для WGS Extract):
https://lh3.github.io/2017/11/13/which-human-reference-genome-to-use

UPD. Сейчас заметил что Небула стала использовать minimap2
« Последнее редактирование: 31 Январь 2023, 12:26:43 от Semargl »

Онлайн Srkz

  • Сообщений: 8529
  • Страна: ru
  • Рейтинг +4863/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Re: FASTQ->BAM
« Ответ #29 : 31 Январь 2023, 12:21:47 »
Там сложно напортить руками, не зная что именно и как надо портить  ;D
Тут у меня начались флэшбэки на тему "если что-то можно напортить, это лишь вопрос времени, пока кто-нибудь из пользователей случайно этого не сделает" ;D. А некоторые пытливые умы могут и специально попробовать, чтобы посмотреть, что из этого получится и как подобное скушает YFull. Как в FTDNA в какой-то момент начали появляться кривые аутосомные файлы, а потом им пришлось ограничить загрузку и ввести проверку на корректность.
Ну да ничего, это цена массовости и популярности. Если вдруг какие-нибудь ошибки пойдут в массы, придётся YFull приделать проверку на корректность при загрузке. А может, и вообще не дойдёт до подобного. Как бы то ни было, не вижу причин для нормальных пользователей отказываться от возможности самостоятельной обработки исходников.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.