АвторТема: WGSExtract, FASTQ и разные референсные геномы  (Прочитано 5047 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Georg

  • Сообщений: 1071
  • Страна: ru
  • Рейтинг +338/-7
  • Племянник vk511(Y),vk160(аДНК)
  • Y-ДНК: I1a1b1a1e2 (Y353312)
  • мтДНК: Я U5b2a1b, дети T1a1ct и H5b*
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #15 : 14 Февраля 2025, 17:37:45 »
Забрал в Биотехе свой геном в формате fastq.
Хотел в t2t сам перегнать.
В wgse стабильной июньской сборки никак чтото не вижу, куда засунуть эти файлики (4 папки с файлами).

С samtools в командной строке чтото не хочется сталкиваться 
Возможно переоценил свои силы, надо было bam брать)

Онлайн Daemon2017Автор темы

  • Сообщений: 2654
  • Страна: ru
  • Рейтинг +1362/-19
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #16 : 14 Февраля 2025, 17:44:06 »
Забрал в Биотехе свой геном в формате fastq.
Хотел в t2t сам перегнать.
В wgse стабильной июньской сборки никак чтото не вижу, куда засунуть эти файлики (4 папки с файлами).

С samtools в командной строке чтото не хочется сталкиваться 
Возможно переоценил свои силы, надо было bam брать)

Вот тут манул https://madelinemiller.dev/blog/whole-genome-sequencing-wgsextract/
WGSe должен быть, кажется, не древнее 2022 года, чтобы работать с FASTQ, а дальше все легко: импортировали, проанализировали, выровняли, записали в BAM с нужным опорником (hg38, T2T)

Оффлайн Georg

  • Сообщений: 1071
  • Страна: ru
  • Рейтинг +338/-7
  • Племянник vk511(Y),vk160(аДНК)
  • Y-ДНК: I1a1b1a1e2 (Y353312)
  • мтДНК: Я U5b2a1b, дети T1a1ct и H5b*
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #17 : 14 Февраля 2025, 18:59:43 »
Забрал в Биотехе свой геном в формате fastq.
Хотел в t2t сам перегнать.
В wgse стабильной июньской сборки никак чтото не вижу, куда засунуть эти файлики (4 папки с файлами).

С samtools в командной строке чтото не хочется сталкиваться 
Возможно переоценил свои силы, надо было bam брать)

Вот тут манул https://madelinemiller.dev/blog/whole-genome-sequencing-wgsextract/
WGSe должен быть, кажется, не древнее 2022 года, чтобы работать с FASTQ, а дальше все легко: импортировали, проанализировали, выровняли, записали в BAM с нужным опорником (hg38, T2T)
а какой t2t выбирать?
chm13 v2.0  25 SN (шимпанзе, что ли?)
hg002xy v2.7 25 SN
hg01243 v3 89 SN (начал пока с этим)
hg002xy v2 25 SN

---------------------------
Reference Genome File
---------------------------
The THG1243v3 Reference Genome (hg01243_v3.fna.gz) is required and still missing. The current command is cancelled.
не скачивает референсы и не устанавливает. была когда-то такая ошибка

« Последнее редактирование: 14 Февраля 2025, 19:23:21 от Georg »

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 6471
  • Страна: ru
  • Рейтинг +4844/-5
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #18 : 14 Февраля 2025, 21:01:56 »
а какой t2t выбирать?
chm13 v2.0  25 SN (шимпанзе, что ли?)
hg002xy v2.7 25 SN
hg01243 v3 89 SN (начал пока с этим)
hg002xy v2 25 SN

chm13 v2.0  25 SN

Оффлайн Capo

  • Сообщений: 27
  • Страна: ru
  • Рейтинг +8/-0
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #19 : 14 Февраля 2025, 21:09:07 »
Добрый вечер,
Я тоже забирал в fastq, yfull за 2500₽ сделал мне bam  :)

Оффлайн vad245

  • Сообщений: 251
  • Страна: ru
  • Рейтинг +102/-0
  • Y-ДНК: R-YP1410
  • мтДНК: U8a1a
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #20 : 19 Ноября 2025, 23:42:38 »
Забрал в Биотехе свой геном в формате fastq.
Хотел в t2t сам перегнать.
В wgse стабильной июньской сборки никак чтото не вижу, куда засунуть эти файлики (4 папки с файлами).

С samtools в командной строке чтото не хочется сталкиваться 
Возможно переоценил свои силы, надо было bam брать)

Вот тут манул https://madelinemiller.dev/blog/whole-genome-sequencing-wgsextract/
WGSe должен быть, кажется, не древнее 2022 года, чтобы работать с FASTQ, а дальше все легко: импортировали, проанализировали, выровняли, записали в BAM с нужным опорником (hg38, T2T)
Начал играться с WGS Extract и чего-то не понимаю. Помогите, пожалуйста.
Выровнял fastq с Т2Т. Но с этим БАМом WGSE ничего не даёт сделать, ни гаплогруппы посмотреть, ни аутосомы сгенерировать. Кнопки ненажимабельные. Могу только БАМы с Y и Mt сделать.
Ещё и говорит, что образец мужской, хотя я знаю что он женский.
Что я делаю не так?
И если аутосомы на Т2Т недоступны, то какой выбирать? Попробовал hs38d1, выровнял, сгенерил аутосомы, но на них gedmatch ругается, что мало информации. GRCh38 тоже недоступен в WGSE (4.44.11).

Онлайн Daemon2017Автор темы

  • Сообщений: 2654
  • Страна: ru
  • Рейтинг +1362/-19
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #21 : 20 Ноября 2025, 00:37:35 »
Начал играться с WGS Extract и чего-то не понимаю. Помогите, пожалуйста.
Выровнял fastq с Т2Т. Но с этим БАМом WGSE ничего не даёт сделать, ни гаплогруппы посмотреть, ни аутосомы сгенерировать. Кнопки ненажимабельные. Могу только БАМы с Y и Mt сделать.
Ещё и говорит, что образец мужской, хотя я знаю что он женский.
Что я делаю не так?
И если аутосомы на Т2Т недоступны, то какой выбирать? Попробовал hs38d1, выровнял, сгенерил аутосомы, но на них gedmatch ругается, что мало информации. GRCh38 тоже недоступен в WGSE (4.44.11).
Возможно, что нарушено правило №1: в пути к WGSE и к файлу не должно быть кириллицы. Идеальное расположение обоих - C:/WGSE

Оффлайн vad245

  • Сообщений: 251
  • Страна: ru
  • Рейтинг +102/-0
  • Y-ДНК: R-YP1410
  • мтДНК: U8a1a
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #22 : 02 Декабря 2025, 00:57:44 »
Начал играться с WGS Extract и чего-то не понимаю. Помогите, пожалуйста.
Выровнял fastq с Т2Т. Но с этим БАМом WGSE ничего не даёт сделать, ни гаплогруппы посмотреть, ни аутосомы сгенерировать. Кнопки ненажимабельные. Могу только БАМы с Y и Mt сделать.
Ещё и говорит, что образец мужской, хотя я знаю что он женский.
Что я делаю не так?
И если аутосомы на Т2Т недоступны, то какой выбирать? Попробовал hs38d1, выровнял, сгенерил аутосомы, но на них gedmatch ругается, что мало информации. GRCh38 тоже недоступен в WGSE (4.44.11).
Возможно, что нарушено правило №1: в пути к WGSE и к файлу не должно быть кириллицы. Идеальное расположение обоих - C:/WGSE
Кириллицы нет. Перепробовал 3 разных конфигурации под Windows, перешёл на Ubuntu. А воз и нынче там.
Похоже, дело в самих геномах. Либо я чего-то не понимаю. Ну, или руки не оттуда растут.
Выровнял под Т2Т, но сам WGSE ничего не даёт с этим бамом делать. Вообще все кнопки ненажимательные.
Выровнял под HG38. Создал все аутосомники. Попытался залить на GedMatch. Облом.
Либо "Less than minimum number of valid SNPs", либо "Fails HTZ ratio test".
Залил на FTDNA, жду. Судя по всему тоже будет отлуп.

Оффлайн gecube_ru

  • Сообщений: 1724
  • Страна: hu
  • Рейтинг +343/-7
  • Незнайка на Луне
  • Y-ДНК: I-A6397 -> I-FGC79161
  • мтДНК: V7a1?
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #23 : 02 Декабря 2025, 09:37:05 »
напишите Randy Harr
докопаться до него можно в запрещенной сети ФБ - https://www.facebook.com/groups/373644229897409/user/710818042
в группе про WGS - https://www.facebook.com/groups/373644229897409
или на гитхабе https://github.com/WGSExtract/WGSExtract-Dev/issues

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 6471
  • Страна: ru
  • Рейтинг +4844/-5
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #24 : 02 Декабря 2025, 11:05:32 »
Начал играться с WGS Extract и чего-то не понимаю. Помогите, пожалуйста.
Выровнял fastq с Т2Т. Но с этим БАМом WGSE ничего не даёт сделать, ни гаплогруппы посмотреть, ни аутосомы сгенерировать. Кнопки ненажимабельные. Могу только БАМы с Y и Mt сделать.
Ещё и говорит, что образец мужской, хотя я знаю что он женский.
Что я делаю не так?
И если аутосомы на Т2Т недоступны, то какой выбирать? Попробовал hs38d1, выровнял, сгенерил аутосомы, но на них gedmatch ругается, что мало информации. GRCh38 тоже недоступен в WGSE (4.44.11).
Возможно, что нарушено правило №1: в пути к WGSE и к файлу не должно быть кириллицы. Идеальное расположение обоих - C:/WGSE
Кириллицы нет. Перепробовал 3 разных конфигурации под Windows, перешёл на Ubuntu. А воз и нынче там.
Похоже, дело в самих геномах. Либо я чего-то не понимаю. Ну, или руки не оттуда растут.
Выровнял под Т2Т, но сам WGSE ничего не даёт с этим бамом делать. Вообще все кнопки ненажимательные.
Выровнял под HG38. Создал все аутосомники. Попытался залить на GedMatch. Облом.
Либо "Less than minimum number of valid SNPs", либо "Fails HTZ ratio test".
Залил на FTDNA, жду. Судя по всему тоже будет отлуп.
Аутосомы генерить, насколько я помню, лучше всего в GRCh37/hg19, так как именно с этим референсом по старинке работает гедматч. Не работал с WGSExtract, но если он делает аутосомные файлы из референсов отличных от GRCh37/hg19, то конвертирует позиции на лету, через лифтовер. Вероятно где-то на этом этапе ошибка?

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 6471
  • Страна: ru
  • Рейтинг +4844/-5
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #25 : 02 Декабря 2025, 11:09:50 »
А может еще проще? Не выбрана директория для сохранения результатов?
https://docs.google.com/document/d/1HBj317OMeq26EmpwVWlAuzZsr2bfWh8Y58A8wAYWVoc/edit?tab=t.0
Цитировать
Если ни одна из кнопок не активна (серая, как показано), вернитесь в раздел «Настройки» и укажите выходной каталог. Затем в разделе «Файл BAM/CRAM» выберите файл и, возможно, нажмите кнопку «Статистика». После этого будут активны только кнопки для содержимого, доступного в BAM. Если кнопка «BAM только для Y-хромосомы» неактивна (серая), то, вероятно, программа определила, что это файл образца с женским полом, и в нём нет значений Y-хромосомы для генерации. Если BAM содержит только Y-хромосому, только мтДНК или только некартированные данные, кнопка «Microarray RAW» будет неактивна.

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 6471
  • Страна: ru
  • Рейтинг +4844/-5
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #26 : 02 Декабря 2025, 11:13:08 »
Аутосомы генерить, насколько я помню, лучше всего в GRCh37/hg19, так как именно с этим референсом по старинке работает гедматч. Не работал с WGSExtract, но если он делает аутосомные файлы из референсов отличных от GRCh37/hg19, то конвертирует позиции на лету, через лифтовер. Вероятно где-то на этом этапе ошибка?
Точно. А про t2t речи даже не идет.
Цитировать
Мы обнаружили, что использование BAM-файла на основе референтного генома hs37d5 (Build37) обеспечивает наибольшую точность генерации файлов формата микрочипов. Инструмент будет использовать предоставленные BAM и референтную модель и сделает всё возможное с ними. При использовании BAM-файла, отличного от сопоставленного с hs37d5, появится всплывающее предупреждение.

При использовании BAM-файла, сопоставленного с референтной моделью Build38, инструмент использует (Py)Liftover для преобразования координат значений вызванных вариантов SNP в Build37. Форматы тестовых файлов микрочипов определены в Build37. Эта операция переноса занимает всего несколько минут и приводит к потере около 500 значений (из 600 000 или более) из-за несопоставимых областей между моделями Build.

Инструменту требуется около часа для генерации исходного файла CombinedKit из BAM: он выполняет наложение, затем вызов вариантов и извлечение. Затем инструменту потребуется около 2 минут для каждого выбранного формата файла, кроме CombinedKit. Файл CombinedKit затем будет уничтожен, если вы не выбрали его в качестве одного из форматов доставки.

Если инструмент обнаружит файл CombinedKit в выходном каталоге (более новый, чем ваш BAM), он начнёт с него и сгенерирует любой выбранный файл за считанные минуты. Поэтому мы рекомендуем всегда изначально генерировать файл CombinedKit и оставлять его в выходном каталоге.

Оффлайн vad245

  • Сообщений: 251
  • Страна: ru
  • Рейтинг +102/-0
  • Y-ДНК: R-YP1410
  • мтДНК: U8a1a
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #27 : 02 Декабря 2025, 14:09:33 »
Аутосомы генерить, насколько я помню, лучше всего в GRCh37/hg19, так как именно с этим референсом по старинке работает гедматч. Не работал с WGSExtract, но если он делает аутосомные файлы из референсов отличных от GRCh37/hg19, то конвертирует позиции на лету, через лифтовер. Вероятно где-то на этом этапе ошибка?
[/quote]В том-то и дело, что WGSE не даёт выбрать GRCh37. Сейчас выравниваю в hs37d5, посмотрим что получится.

А для загрузки Y и Mt на YFull лучше сразу в Т2Т выравнивать? Или через HG38?

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 6471
  • Страна: ru
  • Рейтинг +4844/-5
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #28 : 02 Декабря 2025, 14:29:39 »
А для загрузки Y и Mt на YFull лучше сразу в Т2Т выравнивать? Или через HG38?
В T2T, так сэкономите деньги за апгрейд.

Оффлайн vad245

  • Сообщений: 251
  • Страна: ru
  • Рейтинг +102/-0
  • Y-ДНК: R-YP1410
  • мтДНК: U8a1a
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #29 : 06 Декабря 2025, 11:51:16 »
В общем, ни один кит GedMatch не принял, уже все выравнивания перепробовал во всех вариациях. Он считает их синтетическими и ставит private без возможности сравнивания.
Это что же, GedMatch отрезал всех полногеномников, получается?
У меня задача-то простая - убедится, что взятые при эксгумации образцы действительно наши родные.
На FTDNA что-то долго идёт обсчёт, и неизвестно, примут или нет.

Подскажите, пожалуйста, а есть программы подсчёта совпадений по двум китам? Дабы не мучиться с загрузками и ожиданием.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.