АвторТема: Как прочитать файл генома в формате fq(fastq)?  (Прочитано 472 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Иван55555Автор темы

  • Сообщений: 3
  • Рейтинг +1/-0
Добрый день! Сдали ребенку генетический тест. Скачал необработанные данные(сырые) в формате download_2025-06-06_17-15-44.zip. В этом архиве 18 файлов WGSKZ_199_03_AIA160690_n240901_1_1.fq.gz и один файл WGSKZ_199_03_AIA160690_n240901.md5. Пробовал на сайте https://www.geneticlifehacks.com/, в нем нужно преобразовывать файлы с помощью WGS Extract(пытался ничего не получается, может что то делаю не так). Необходимо ли эти 18 файлов соединять в один? Подскажите пожалуйста как можно их прочитать(расшифровать)?

Оффлайн Древ

  • Сообщений: 1143
  • Страна: ru
  • Рейтинг +328/-4
  • Y-ДНК: I-PH1410
  • мтДНК: H5a1a*
Re: Как прочитать файл генома в формате fq(fastq)?
« Ответ #1 : 24 Января 2026, 20:13:47 »
Иван55555
Какой именно генетический тест вы делали? А то вдруг это что-то другое.
Задача стоит, я так понимаю, узнать Y, мито и аутосомы?
Чтобы узнать Y и мито - заливайте на YFULL. Они принимают ссылки на яндекс-диск, например.
А вот чтобы аутосомы выделить, нужен WGS Extract. Ему на форуме посвящено несколько тем - читайте, вникайте. Им не так чтобы много народу пользуется и потому редко кто-то подробные советы по нему даёт.
Я вот, например, два десятка тестов делал и WGSE никогда не касался.

Оффлайн Georg

  • Сообщений: 1125
  • Страна: ru
  • Рейтинг +365/-8
  • Племянник vk511(Y),vk160(аДНК)
  • Y-ДНК: I1a1b1a1e2 (Y353312)
  • мтДНК: Я U5b2a1b, дети T1a1ct и H5b*
Re: Как прочитать файл генома в формате fq(fastq)?
« Ответ #2 : 24 Января 2026, 21:37:53 »
Если 18 файлов, то похоже на результаты прогона на секвенсорах mgi,  как биотехкампус/100000+я.
Дело нетривиальное, я сам долго мучался, вспомнил все свои юниксовые навыки.
Сперва надо объединить риды прямого прочтения в 1 файл, потом риды обратного прочтения.
Потом их как-то еще соединить и только тогда скармливать wgse.
Если сами хотите, читайте тут https://forum.molgen.org/index.php/topic,14733.msg614715.html#msg614715
Но лучше отдать какому-нибудь специалисту


Оффлайн Иван55555Автор темы

  • Сообщений: 3
  • Рейтинг +1/-0
Re: Как прочитать файл генома в формате fq(fastq)?
« Ответ #3 : 03 Февраля 2026, 17:53:59 »
Получилось с помощью WGS Extract преобразовать fq в bam(получилось 18 bam файлов), далее в формат 23andMe для сайта https://www.geneticlifehacks.com/. Загружаю каждый по отдельности  на сайт, получаю отличающиеся отчеты. Пробовал объединить файлы 23andMe в редакторе .txt, получается файл больше 200 Гб(сайт не грузит такой объем). Необходимо ли объединять bam файлы или  файлы 23andMe в общий, если да, то с помощью каких программ? Или все таки их загружать по отдельности?
Например загрузил 1 файл, одна из строк отчета: TNF   rs1799964   CC   C   0.21   Increased TNF alpha, increased risk of many chronic inflammatory diseases
                  загрузил 2 файл, одна из строк отчета: TNF   rs1799964   TT   C   0.21   Increased TNF alpha, increased risk of many chronic inflammatory diseases
                  загрузил 2 файл, одна из строк отчета: TNF   rs1799964   CT   C   0.21   Increased TNF alpha, increased risk of many chronic inflammatory diseases
В каждом отчете в одном и том же гене  разные генотипы СС, ТТ, СТ. Должно ли быть так?

Онлайн Daemon2017

  • Сообщений: 2668
  • Страна: ru
  • Рейтинг +1369/-19
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Re: Как прочитать файл генома в формате fq(fastq)?
« Ответ #4 : 03 Февраля 2026, 18:38:19 »
Получилось с помощью WGS Extract преобразовать fq в bam(получилось 18 bam файлов), далее в формат 23andMe для сайта https://www.geneticlifehacks.com/. Загружаю каждый по отдельности  на сайт, получаю отличающиеся отчеты. Пробовал объединить файлы 23andMe в редакторе .txt, получается файл больше 200 Гб(сайт не грузит такой объем). Необходимо ли объединять bam файлы или  файлы 23andMe в общий, если да, то с помощью каких программ? Или все таки их загружать по отдельности?
Например загрузил 1 файл, одна из строк отчета: TNF   rs1799964   CC   C   0.21   Increased TNF alpha, increased risk of many chronic inflammatory diseases
                  загрузил 2 файл, одна из строк отчета: TNF   rs1799964   TT   C   0.21   Increased TNF alpha, increased risk of many chronic inflammatory diseases
                  загрузил 2 файл, одна из строк отчета: TNF   rs1799964   CT   C   0.21   Increased TNF alpha, increased risk of many chronic inflammatory diseases
В каждом отчете в одном и том же гене  разные генотипы СС, ТТ, СТ. Должно ли быть так?
А зачем 18 BAM-файлов? 18 разных референсов?

Что в заголовках полученных отчетов? Возможно, что CC/TT/CT это значение в референсном геноме.

Оффлайн Georg

  • Сообщений: 1125
  • Страна: ru
  • Рейтинг +365/-8
  • Племянник vk511(Y),vk160(аДНК)
  • Y-ДНК: I1a1b1a1e2 (Y353312)
  • мтДНК: Я U5b2a1b, дети T1a1ct и H5b*
Re: Как прочитать файл генома в формате fq(fastq)?
« Ответ #5 : 03 Февраля 2026, 18:47:47 »
Получилось с помощью WGS Extract преобразовать fq в bam(получилось 18 bam файлов), далее в формат 23andMe для сайта https://www.geneticlifehacks.com/. Загружаю каждый по отдельности  на сайт, получаю отличающиеся отчеты. Пробовал объединить файлы 23andMe в редакторе .txt, получается файл больше 200 Гб(сайт не грузит такой объем). Необходимо ли объединять bam файлы или  файлы 23andMe в общий, если да, то с помощью каких программ? Или все таки их загружать по отдельности?
Например загрузил 1 файл, одна из строк отчета: TNF   rs1799964   CC   C   0.21   Increased TNF alpha, increased risk of many chronic inflammatory diseases
                  загрузил 2 файл, одна из строк отчета: TNF   rs1799964   TT   C   0.21   Increased TNF alpha, increased risk of many chronic inflammatory diseases
                  загрузил 2 файл, одна из строк отчета: TNF   rs1799964   CT   C   0.21   Increased TNF alpha, increased risk of many chronic inflammatory diseases
В каждом отчете в одном и том же гене  разные генотипы СС, ТТ, СТ. Должно ли быть так?
Вы по сути сделали отдельные файлы на каждый прогон днк. Wgs 2x.  Естественно значения могут различаться в зависимости от прочтения.
Я вам дал ссылку на обсуждение, что делать. Обьединить сперва fq

Оффлайн Иван55555Автор темы

  • Сообщений: 3
  • Рейтинг +1/-0
Re: Как прочитать файл генома в формате fq(fastq)?
« Ответ #6 : 03 Февраля 2026, 19:18:56 »
Сдали ребенку тест, дали ссылку на скачивание сырых данных. В ней 18 файлов fq (.gz)такого вида:
WGSKZ_199_04_AAI200819_n240899_1_1.fq
WGSKZ_199_04_AAI200819_n240899_1_2.fq
WGSKZ_199_04_AAI200819_n240899_2_1.fq
WGSKZ_199_04_AAI200819_n240899_2_2.fq
......
WGSKZ_199_04_AAI200819_n240899_8_2.fq
WGSKZ_199_04_AAI200819_n240899_ALN_1.fq
WGSKZ_199_04_AAI200819_n240899_ALN_2.fq
Первые шестнадцать весят 5-10 Гб, последние два больше 50Гб

Оффлайн Val_Metov

  • Сообщений: 1309
  • Страна: ru
  • Рейтинг +1004/-2
  • Y-ДНК: J-Y94477
Re: Как прочитать файл генома в формате fq(fastq)?
« Ответ #7 : 04 Февраля 2026, 09:09:13 »
Обратись лучше к gemini/chatgpt/kimi/qwen/glm итд.
У вас должно получиться 2 fastq файла. Это не сложная задача для ПК, много времени не займет.
Дальше вы из этих 2х fastq получите bam. Референс выбираете сами, смотря для чего вам нужно. Для медицины hg37/hg38. Для того чтобы выделить аутосомы, тоже самое. Если хотите на Yfull загрузить. Тогда лучше t2t. Ну или hg38. По хорошему 2 раза пересобирать.
Вам это всё нейросеть прекрасно объяснит.

Оффлайн Georg

  • Сообщений: 1125
  • Страна: ru
  • Рейтинг +365/-8
  • Племянник vk511(Y),vk160(аДНК)
  • Y-ДНК: I1a1b1a1e2 (Y353312)
  • мтДНК: Я U5b2a1b, дети T1a1ct и H5b*
Re: Как прочитать файл генома в формате fq(fastq)?
« Ответ #8 : 04 Февраля 2026, 09:40:01 »
Обратись лучше к gemini/chatgpt/kimi/qwen/glm итд.
У вас должно получиться 2 fastq файла. Это не сложная задача для ПК, много времени не займет.
Дальше вы из этих 2х fastq получите bam. Референс выбираете сами, смотря для чего вам нужно. Для медицины hg37/hg38. Для того чтобы выделить аутосомы, тоже самое. Если хотите на Yfull загрузить. Тогда лучше t2t. Ну или hg38. По хорошему 2 раза пересобирать.
Вам это всё нейросеть прекрасно объяснит.
И с каким промтом? Сомневаюсь, что она сможет понять и построить алгоритм. Особенно, если пользователь не понимает ни какой вопрос, ни какой ожидается ответ.
Об этой новой проблеме необьединенных единичных ридов даже автор wgse не знал и не захотел решать.

Если кратко, то
# Объединяем все R1 файлы
zcat sample1_R1.fq.gz sample2_R1.fq.gz sample3_R1.fq.gz sample4_R1.fq.gz | gzip > combined_R1.fq.gz

# Объединяем все R2 файлы
zcat sample1_R2.fq.gz sample2_R2.fq.gz sample3_R2.fq.gz sample4_R2.fq.gz | gzip > combined_R2.fq.gz


Или я подозреваю, что ALN файлы уже являются обьединенными ридами, каждый в одну сторону прочтения.
Тогда достаточно только их скормить wgse, он возможно их обьединит и преобразует в bam

Оффлайн Val_Metov

  • Сообщений: 1309
  • Страна: ru
  • Рейтинг +1004/-2
  • Y-ДНК: J-Y94477
Re: Как прочитать файл генома в формате fq(fastq)?
« Ответ #9 : 04 Февраля 2026, 14:54:24 »
Она решается. Проверено. Дело не в промте. Показывается файлы, можно скрин всех файлов. И что надо собрать итд. то ли zcat то ли еще как-то точно не помню.

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Сообщений: 6486
  • Страна: ru
  • Рейтинг +4859/-5
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Как прочитать файл генома в формате fq(fastq)?
« Ответ #10 : 04 Февраля 2026, 18:07:52 »
Или я подозреваю, что ALN файлы уже являются обьединенными ридами, каждый в одну сторону прочтения.
Тогда достаточно только их скормить wgse, он возможно их обьединит и преобразует в bam
Похоже на то. Попробуйте сравнить сумму 16 малых файлов с суммой двух больших файлов. Если примерно они равны, то значит выравниваете через WGSE только их.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.