АвторТема: Конвертация файла .vcf  (Прочитано 435 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн PetramariaАвтор темы

  • Сообщений: 9
  • Страна: ru
  • Рейтинг +0/-0
Конвертация файла .vcf
« : 12 Январь 2020, 22:57:08 »
Имею файл .vcf сделанный на чипе Illumina infinium global screening array v. 2.0. Скачала DNA kit Studio c dnagenics.com
Вопрос: какой темплейт ставить при конвертации, чтобы взять максимум инфо из моего файла для последующей загрузки на MH и Gedmatch, чтобы была наилучшая достоверность матчей и оверлэп?
Или другими словами, под какой формат файла лучше всего подходит данный чип?
Темплейты для конвертации .vcf там предлагаются 23&me v.2, 3,4,5, ancestry 1,2, ftdna 1,2, living DNA 1,2

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 35645
  • Страна: ca
  • Рейтинг +3194/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Конвертация файла .vcf
« Ответ #1 : 12 Январь 2020, 23:45:59 »
Опции comsolidated нет?

Я себе по файлу от Данте лепил единый файл для всех основных лабораторий. Раз.

Обратитесь к пользователю rmk. Два.

:)

Оффлайн PetramariaАвтор темы

  • Сообщений: 9
  • Страна: ru
  • Рейтинг +0/-0
Re: Конвертация файла .vcf
« Ответ #2 : 13 Январь 2020, 00:02:35 »
Есть ещё форматы 23&me mergev3v4v5 и AllRawFormats_ByPosition, которые мне сразу и приглянулись и я их использовала, но MH сходу результат обругала как неизвестные ей виды файлов, Gedmatch вроде съел, переваривает, матчей пока нет ещё.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 35645
  • Страна: ca
  • Рейтинг +3194/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Конвертация файла .vcf
« Ответ #3 : 13 Январь 2020, 00:13:07 »
У меня в ГедМатч LG4772377 Michael Temosh (consolidated).
Загрузилось везде без проблем.

Одно принципиальное отличие. Конвертировал из ВАМ файла, а не .vcf.

Оффлайн NathanS

  • Сообщений: 235
  • Рейтинг +162/-1
  • Y-ДНК: ЖМ: N1c-Z1939
Re: Конвертация файла .vcf
« Ответ #4 : 13 Январь 2020, 00:30:45 »
Имею файл .vcf сделанный на чипе Illumina infinium global screening array v. 2.0. Скачала DNA kit Studio c dnagenics.com
Вопрос: какой темплейт ставить при конвертации, чтобы взять максимум инфо из моего файла для последующей загрузки на MH и Gedmatch, чтобы была наилучшая достоверность матчей и оверлэп?
Или другими словами, под какой формат файла лучше всего подходит данный чип?
Темплейты для конвертации .vcf там предлагаются 23&me v.2, 3,4,5, ancestry 1,2, ftdna 1,2, living DNA 1,2

Судя по описанию это не vcf  после полногеномного секвенирования, а тест с российского Genotek. Как такой vcf будет обработан WGSextract или  Dna kit Studio остается только надеятся. Я бы попробовал ftdna 2 и 23andme v 5 для загрузки на MH, а можно и на FTDNA попробовать загрузить.

Оффлайн PetramariaАвтор темы

  • Сообщений: 9
  • Страна: ru
  • Рейтинг +0/-0
Re: Конвертация файла .vcf
« Ответ #5 : 13 Январь 2020, 01:21:01 »
Да, это генотек. А какой формат более полноценным по полноте инфы  будет для используемого ими чипа? 23&me v5 или ftdna2? Я уже сделала и загрузила на MH 23&me v.5, и у меня там был до этого 23&me v.4, которую мне конвертировал сам генотек, так вот по в.4 было 3500 матчей, по в.5 - аж 8500, причём у тех матчей, которые общие для обоих, размер в сМ меньше на в.5. Что это значит? Какая версия лучше? Где больше матчей, но ниже совпадение или наоборот? Извините, если глупые вопросы, я в этой сфере новичок. :) Хочется найти оптимальный вариант.

Оффлайн PetramariaАвтор темы

  • Сообщений: 9
  • Страна: ru
  • Рейтинг +0/-0
Re: Конвертация файла .vcf
« Ответ #6 : 13 Январь 2020, 22:10:38 »
Имеем vcf от генотек и ими же сконвертированный 23&meV4. Далее, этот же .vcf конвертируем через DNA kit studio в тот же 23&me версия 4. Эти два файла версия 4 ставим на сравнение в Beyond Compare. Получаем 9734 строк различия. Может в процентах это и не много, но как то напрягает. В одном файле стоят, например аллели, в другом для этого же снип  прочерки, какие то снип вообще не совпадают. В чем причина такой картины и как это влияет на достоверность результатов при использовании этих файлов?
Не знаю, как тут картинки вставить, так что ссылки на Дропбокс. Вот такая картина примерно:
https://www.dropbox.com/s/4dh9ffzo34v10va/%D0%A1%D0%BA%D1%80%D0%B8%D0%BD%D1%88%D0%BE%D1%82%202020-01-13%2021.56.49.png?dl=0

https://www.dropbox.com/s/oyvy4h2dc0dldn7/%D0%A1%D0%BA%D1%80%D0%B8%D0%BD%D1%88%D0%BE%D1%82%202020-01-13%2021.55.03.png?dl=0

Оффлайн NathanS

  • Сообщений: 235
  • Рейтинг +162/-1
  • Y-ДНК: ЖМ: N1c-Z1939
Re: Конвертация файла .vcf
« Ответ #7 : 13 Январь 2020, 22:12:22 »
Да, это генотек. А какой формат более полноценным по полноте инфы  будет для используемого ими чипа? 23&me v5 или ftdna2? Я уже сделала и загрузила на MH 23&me v.5, и у меня там был до этого 23&me v.4, которую мне конвертировал сам генотек, так вот по в.4 было 3500 матчей, по в.5 - аж 8500, причём у тех матчей, которые общие для обоих, размер в сМ меньше на в.5. Что это значит? Какая версия лучше? Где больше матчей, но ниже совпадение или наоборот? Извините, если глупые вопросы, я в этой сфере новичок. :) Хочется найти оптимальный вариант.

Думаю, что v5 лучше. Вот так пишут о v4
Цитировать
The 23andMe V4 chip is 23andMe’s fourth microarray chip and is the one now in use. It replaced their V3 chip in November 2013. It is a completely custom Illumina Genotyping BeadChip.

По материалам ISOGG https://isogg.org/wiki/23andMe:
Цитировать
v4: November 2013, ~570K SNPs
v5 August 2017, ~640K SNPs (change made to Illumina Global Screening Array BeadChip)
Если в Вашем vcf файле около 640 тысяч строк, то вероятно он ближе к 23andme v5.

Оффлайн PetramariaАвтор темы

  • Сообщений: 9
  • Страна: ru
  • Рейтинг +0/-0
Re: Конвертация файла .vcf
« Ответ #8 : 13 Январь 2020, 22:24:11 »
Я так поняла, что дело не только в количестве снипов,  генотек вообще заявлял, что у него то ли 650 то ли 670 тысяч, но и в том что анализируются разные снипы, это ведь так?

Оффлайн PetramariaАвтор темы

  • Сообщений: 9
  • Страна: ru
  • Рейтинг +0/-0
Re: Конвертация файла .vcf
« Ответ #9 : 13 Январь 2020, 22:34:25 »
Сделала отдельно ещё один вопрос, но он почему то пропал. Повторю тут.
Один и тот же файл vcf от генотек конвертирован в один и тот же формат 23&meV4 два раза - один раз самим генотеком, второй раз мной через DNA kit studio. Беру эти два файла, которые по моему разумению должны быть одинаковыми, кладу их в Beyond Compare (если кто не в курсе, эта прога сравнивает текстовые файлы построчно).
Получаю 9734 строк различия. В процентном отношении может и не много, но все равно напрягает. Почему?
В одном файле стоят буквы аллелей, в другом для этого снипа прочерки. Некоторые вообще не совпадают даже имена снипов. Если меня кто научит как, могу скриншоты показать.
Как с достоверностью данных при такой картине? И какой файл более правильный, как это оценить?

Оффлайн NathanS

  • Сообщений: 235
  • Рейтинг +162/-1
  • Y-ДНК: ЖМ: N1c-Z1939
Re: Конвертация файла .vcf
« Ответ #10 : 13 Январь 2020, 22:34:53 »
Я так поняла, что дело не только в количестве снипов,  генотек вообще заявлял, что у него то ли 650 то ли 670 тысяч, но и в том что анализируются разные снипы, это ведь так?
Да, это так. Надо сравнивать снипы в вашен vcf со снипами или позициями по хромосомам с 23andme v4 и v5, чтобы точно знать.

Оффлайн NathanS

  • Сообщений: 235
  • Рейтинг +162/-1
  • Y-ДНК: ЖМ: N1c-Z1939
Re: Конвертация файла .vcf
« Ответ #11 : 13 Январь 2020, 22:42:11 »
Сделала отдельно ещё один вопрос, но он почему то пропал. Повторю тут.
Один и тот же файл vcf от генотек конвертирован в один и тот же формат 23&meV4 два раза - один раз самим генотеком, второй раз мной через DNA kit studio. Беру эти два файла, которые по моему разумению должны быть одинаковыми, кладу их в Beyond Compare (если кто не в курсе, эта прога сравнивает текстовые файлы построчно).
Получаю 9734 строк различия. В процентном отношении может и не много, но все равно напрягает. Почему?
В одном файле стоят буквы аллелей, в другом для этого снипа прочерки. Некоторые вообще не совпадают даже имена снипов. Если меня кто научит как, могу скриншоты показать.
Как с достоверностью данных при такой картине? И какой файл более правильный, как это оценить?

Картинки можно постить через Радикал https://radikal.ru/
Названия снипов не являются постоянными и иногда меняются. Как с этим справляется WGSExtract мне не известно. Координаты снипов тоже иногда отличаются на 1 и может быть ошибка при конвертации.

Оффлайн PetramariaАвтор темы

  • Сообщений: 9
  • Страна: ru
  • Рейтинг +0/-0
Re: Конвертация файла .vcf
« Ответ #12 : 14 Январь 2020, 02:09:45 »

Надо сравнивать снипы в вашен vcf со снипами или позициями по хромосомам с 23andme v4 и v5, чтобы точно знать.
А как это сделать? Должна быть какая то прога. Не ручками же.

Оффлайн NathanS

  • Сообщений: 235
  • Рейтинг +162/-1
  • Y-ДНК: ЖМ: N1c-Z1939
Re: Конвертация файла .vcf
« Ответ #13 : 14 Январь 2020, 04:08:48 »

Надо сравнивать снипы в вашен vcf со снипами или позициями по хромосомам с 23andme v4 и v5, чтобы точно знать.
А как это сделать? Должна быть какая то прога. Не ручками же.

Про такую программу мне не известно. Сделайте себе тест в нормальной компании и не заморачивайтесь. И МХ, и ФТДНА, и 23андми, и Анцестри предлагают в период скидок тесты в 3-5 раз дешевле, чем Генотек. И в действительности данных не будете сомневаться, и данные получите в нужном формате, и программу не надо будет писать/разыискивать.

Оффлайн PetramariaАвтор темы

  • Сообщений: 9
  • Страна: ru
  • Рейтинг +0/-0
Re: Конвертация файла .vcf
« Ответ #14 : 14 Январь 2020, 20:56:35 »




Сделайте себе тест в нормальной компании и не заморачивайтесь. И МХ, и ФТДНА, и 23андми, и Анцестри предлагают в период скидок тесты в 3-5 раз дешевле, чем Генотек. И в действительности данных не будете сомневаться, и данные получите в нужном формате, и программу не надо будет писать/разыискивать.
[/quote]
Я бы хотела сделать в анцестри и 23&me, главным образом чтобы в их базы попасть, но пока так и не поняла, как это организовать надежно, они ведь сюда не шлют, да и оплату не принимают с наших карт.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.


Rambler's Top100