АвторТема: WGSExtract, FASTQ и разные референсные геномы  (Прочитано 1495 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Daemon2017Автор темы

  • Сообщений: 2145
  • Страна: ru
  • Рейтинг +1038/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Вопрос с соседнего форума:
если взять FASTQ и через WGSExtract сделать из него 4 BAM'а на основе 4 разных референсных геномов (hg19, hg38, hs37d5, hs38), то часть SNP (20K из 686K, т.е. 3%) будет отличаться. Т.е. результат не вполне воспроизводимый и создающий, как минимум, шумы.
Чем это вызвано?

Цитировать
           rsid chromosome  position Reich_1240K hs37d5 hg19 hs38

  1:  rs1812242          1  12835868          CC     --   CC   CC

  2: rs12136740          1 145104261          TT     TT   AA   AA

  3: rs16827081          1 145398042          GG     GG   CC   CC

  4:  rs7551245          1 145417662          --     TT   GG   GG

  5:     rs7211          1 145441620          --     CC   AA   AA

 ---                                                             

189:   rs408278          X 103134977          AA     AG   GG   GG

190:   rs524400          X 149575352          GG     GG   TT   TT

191:   rs652747          X 149669053          --     --   TT   TT

192:  rs2515847          X 151908176          CC     CC   GG   GG

193:  rs5969947          X 152469794          AA     AA   CC   CC

Комплементарные (C-G, A-T) переходы еще можно понять, а вот A-C и G-T это что-то странное.

Оффлайн gecube_ru

  • Сообщений: 1338
  • Страна: hu
  • Рейтинг +249/-6
  • Незнайка на Луне
  • Y-ДНК: I-A6397 -> I-FGC79161
  • мтДНК: V7a1?
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #1 : 10 Сентябрь 2023, 09:35:46 »
Ну, я себе вижу это так, что геном человека мы с каждой итерацией, с каждым новым сиквенсом уточняем. Это как представить себе огромный фолиант - в нем явно будут опечатки. И мы просматривая его можем их устранить (заменить буквы, добавить буквы, удалить буквы). И в связи с этим результаты маппирования и едут. Потому что маппирование я бы так и представил - вот у нас есть тот базовый фолиант. А есть моя «книга». Теперь давай ее скопируем 100 раз и случайным образом разрежем каждую страницу по строчкам. Каждый раз з по-разному. Как собрать исходный текст? Ну, очевидно сравнивая с тем толстым изначальным фолиантом, пытаясь найти наиболее подходящие строчки из него и подклеивая вот эту мою строчку в соответствующее место. Так и получается «прочитанный геном». Это раз.
Два - вроде бы никто не говорил, что WGS обеспечивает 100% точность. Все еще есть no call. Не прочитанные кусочки. Вот потерялись они при разрезании.


Оффлайн Daemon2017Автор темы

  • Сообщений: 2145
  • Страна: ru
  • Рейтинг +1038/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #2 : 10 Сентябрь 2023, 10:40:51 »
Ну, я себе вижу это так, что геном человека мы с каждой итерацией, с каждым новым сиквенсом уточняем. Это как представить себе огромный фолиант - в нем явно будут опечатки. И мы просматривая его можем их устранить (заменить буквы, добавить буквы, удалить буквы). И в связи с этим результаты маппирования и едут. Потому что маппирование я бы так и представил - вот у нас есть тот базовый фолиант. А есть моя «книга». Теперь давай ее скопируем 100 раз и случайным образом разрежем каждую страницу по строчкам. Каждый раз з по-разному. Как собрать исходный текст? Ну, очевидно сравнивая с тем толстым изначальным фолиантом, пытаясь найти наиболее подходящие строчки из него и подклеивая вот эту мою строчку в соответствующее место. Так и получается «прочитанный геном». Это раз.
Два - вроде бы никто не говорил, что WGS обеспечивает 100% точность. Все еще есть no call. Не прочитанные кусочки. Вот потерялись они при разрезании.

Спасибо!

Оффлайн NathanS

  • Сообщений: 1274
  • Страна: 00
  • Рейтинг +1187/-2
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #3 : 10 Сентябрь 2023, 11:02:20 »
По-моему в руководстве WGSExtract написано, что извлечение "аутосомных" файлов типа 23andme v5 и проч. наиболее точно работает с вариантами GRCh37, т.е. например hs37d5, он кажется один из рекомендуемых, а вот извлечение аутосом после выравнивания под GRCh38 дает некоторую степень ошибок.

Оффлайн Daemon2017Автор темы

  • Сообщений: 2145
  • Страна: ru
  • Рейтинг +1038/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #4 : 10 Сентябрь 2023, 12:11:02 »
По-моему в руководстве WGSExtract написано, что извлечение "аутосомных" файлов типа 23andme v5 и проч. наиболее точно работает с вариантами GRCh37, т.е. например hs37d5, он кажется один из рекомендуемых, а вот извлечение аутосом после выравнивания под GRCh38 дает некоторую степень ошибок.

Спасибо! Т.е. высокий уровень качества аутосом это особенность именно самого референса GRCh37?

Оффлайн Georg

  • Сообщений: 603
  • Страна: ru
  • Рейтинг +182/-5
  • Племянник vk511(Y),vk160(аДНК)
  • Y-ДНК: I1a1b1a1e2 (Y353312)
  • мтДНК: Я U5b2a, дети T1a1ct и H5b9
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #5 : 10 Сентябрь 2023, 12:30:09 »
Вопрос с соседнего форума:
если взять FASTQ и через WGSExtract сделать из него 4 BAM'а на основе 4 разных референсных геномов (hg19, hg38, hs37d5, hs38), то часть SNP (20K из 686K, т.е. 3%) будет отличаться. Т.е. результат не вполне воспроизводимый и создающий, как минимум, шумы.
Чем это вызвано?

Цитировать
           rsid chromosome  position Reich_1240K hs37d5 hg19 hs38

  1:  rs1812242          1  12835868          CC     --   CC   CC

  2: rs12136740          1 145104261          TT     TT   AA   AA

  3: rs16827081          1 145398042          GG     GG   CC   CC

  4:  rs7551245          1 145417662          --     TT   GG   GG

  5:     rs7211          1 145441620          --     CC   AA   AA

 ---                                                             

189:   rs408278          X 103134977          AA     AG   GG   GG

190:   rs524400          X 149575352          GG     GG   TT   TT

191:   rs652747          X 149669053          --     --   TT   TT

192:  rs2515847          X 151908176          CC     CC   GG   GG

193:  rs5969947          X 152469794          AA     AA   CC   CC

Комплементарные (C-G, A-T) переходы еще можно понять, а вот A-C и G-T это что-то странное.
А t2t?

Оффлайн Daemon2017Автор темы

  • Сообщений: 2145
  • Страна: ru
  • Рейтинг +1038/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #6 : 10 Сентябрь 2023, 12:33:40 »
А t2t?

Коллега пока не пробовал, но идея хорошая, спасибо!

Оффлайн gecube_ru

  • Сообщений: 1338
  • Страна: hu
  • Рейтинг +249/-6
  • Незнайка на Луне
  • Y-ДНК: I-A6397 -> I-FGC79161
  • мтДНК: V7a1?
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #7 : 10 Сентябрь 2023, 12:38:30 »
Я в майхеритаж загнал из t2t. Полет отличный.
Даже если там та огромная погрешность, которую мы пытаемся обсудить в соседней ветке
https://forum.molgen.org/index.php/topic,14970.0.html

Оффлайн Valery

  • Сообщений: 10098
  • Страна: 00
  • Рейтинг +1372/-7
  • Ultimate Matriarchy
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #8 : 10 Сентябрь 2023, 12:50:45 »
вывод: если надо сравнивать с чьими-то снипами, то собирать надо в том референсе, в котором эти данные. Скажем, у меня есть чип Ильюмина Инфиниум Омни 4.4. Там все в 37. Если мне надо сравнить кого-то с с кем-то из выборки на Инфиниум, то никогда не делаю лифтовер, а всегда пересобираю геном намеренно в 37. Не наоборот. Тот случай, когда предпочитаю тратить электричество, а не мозги.

Жалко мозгов на эту хрень.

Оффлайн Valery

  • Сообщений: 10098
  • Страна: 00
  • Рейтинг +1372/-7
  • Ultimate Matriarchy
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #9 : 10 Сентябрь 2023, 12:54:27 »
Reich_1240K

Это Хьюман Ориджин. Если данные в нем, то пересобирать геном в 37.
Но не могу найти причины сравнивать с Ориджин. Чип говеный. Там предпочитаются расовые снипы, а для сравнения популяций одной расы наоборот меньше снипов.

Оффлайн Srkz

  • Сообщений: 8292
  • Страна: ru
  • Рейтинг +4700/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #10 : 10 Сентябрь 2023, 13:09:47 »
Но не могу найти причины сравнивать с Ориджин. Чип говеный. Там предпочитаются расовые снипы, а для сравнения популяций одной расы наоборот меньше снипов.
Если только одна - самая большая общедоступная база данных древней и современной аутосомной ДНК на этом чипе ))

Оффлайн Valery

  • Сообщений: 10098
  • Страна: 00
  • Рейтинг +1372/-7
  • Ultimate Matriarchy
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #11 : 10 Сентябрь 2023, 13:13:36 »
Если только одна - самая большая общедоступная база данных древней и современной аутосомной ДНК на этом чипе ))

Да, Райх предпочитал HO. Поэтому бывает проблема, когда нет доступа к большим приватным коллекциям геномов )) Думаю, это быстро перетрется с удешевлением полных геномов.

Оффлайн NathanS

  • Сообщений: 1274
  • Страна: 00
  • Рейтинг +1187/-2
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #12 : 10 Сентябрь 2023, 13:29:14 »
По-моему в руководстве WGSExtract написано, что извлечение "аутосомных" файлов типа 23andme v5 и проч. наиболее точно работает с вариантами GRCh37, т.е. например hs37d5, он кажется один из рекомендуемых, а вот извлечение аутосом после выравнивания под GRCh38 дает некоторую степень ошибок.

Спасибо! Т.е. высокий уровень качества аутосом это особенность именно самого референса GRCh37?

Нет, там скорее програмные проблемы. Valery написал про лифтовер координат - именно это упоминалось среди причин проблемы с ошибочными снипами. Обещали исправить.

Оффлайн Daemon2017Автор темы

  • Сообщений: 2145
  • Страна: ru
  • Рейтинг +1038/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #13 : 10 Сентябрь 2023, 13:41:12 »

Нет, там скорее програмные проблемы. Valery написал про лифтовер координат - именно это упоминалось среди причин проблемы с ошибочными снипами. Обещали исправить.

Ааа! Спасибо за ответ :)

Оффлайн Valery

  • Сообщений: 10098
  • Страна: 00
  • Рейтинг +1372/-7
  • Ultimate Matriarchy
Re: WGSExtract, FASTQ и разные референсные геномы
« Ответ #14 : 10 Сентябрь 2023, 14:05:56 »
Помимо пересборки под нужный реф, еще можно рекомендовать отбрасывать какие-то участки, есть кое-где списки и для аутосом, и для У. Эти участки - референсоспецифичные. Например, в сборке 37 несколько регионов вблизи центромеры У - сплошная грязь, а в 38 более-менее пофиксили.

То есть считать, что кое-что у вас - NO CALL, потому что это лучше чем грязь.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.