АвторТема: Конвертация файла .vcf  (Прочитано 6966 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн NathanS

  • Сообщений: 1277
  • Страна: 00
  • Рейтинг +1202/-2
Re: Конвертация файла .vcf
« Ответ #15 : 14 Январь 2020, 22:15:06 »




Сделайте себе тест в нормальной компании и не заморачивайтесь. И МХ, и ФТДНА, и 23андми, и Анцестри предлагают в период скидок тесты в 3-5 раз дешевле, чем Генотек. И в действительности данных не будете сомневаться, и данные получите в нужном формате, и программу не надо будет писать/разыискивать.
Я бы хотела сделать в анцестри и 23&me, главным образом чтобы в их базы попасть, но пока так и не поняла, как это организовать надежно, они ведь сюда не шлют, да и оплату не принимают с наших карт.

Это обсуждалось здесь ранее - 23andme надо пересылать через почтового посредника к вам, и обратно, Ancestry видимо пересылать через посредника себе, а назад обычной почтой России можно. http://forum.molgen.org/index.php/topic,1932.1800.html Одна из ссылок в обсуждении http://blog.22andxy.ru/2016/07/ancestry-dna-order.html, ну или через родственника в США или ЕС.

Оффлайн Alexey_V.B.

  • Сообщений: 880
  • Страна: il
  • Рейтинг +223/-0
  • Y-ДНК: R1a (R-A8995*)
  • мтДНК: K1a1b1a
Re: Конвертация файла .vcf
« Ответ #16 : 15 Январь 2020, 01:38:12 »
Я бы хотела сделать в анцестри и 23&me, главным образом чтобы в их базы попасть, но пока так и не поняла, как это организовать надежно, они ведь сюда не шлют, да и оплату не принимают с наших карт.
зачем начинать с самых сложных по доставке и самых непродуктивных для генеалогии (для основной массы россиян, за редким исключением) компаний?
пройдите нормальный эволюционный путь начав с MyHeritage и FTDNA. для бесплатной доставки одного кита MyHeritage код BABBLEBOXX1
все американские компании принимают оплату картами росс. банков и PayPal, по доставке еще одна ссылка http://forum.molgen.org/index.php/topic,5774.msg469525.html#msg469525


Оффлайн mdn

  • Сообщений: 263
  • Страна: fi
  • Рейтинг +142/-0
  • Y-ДНК: R-FGC56440
  • мтДНК: R1a1a1
Re: Конвертация файла .vcf
« Ответ #17 : 15 Январь 2020, 11:16:14 »
для бесплатной доставки одного кита MyHeritage код BABBLEBOXX1
Это с декабря не работает, к сожалению.

Оффлайн Alexey_V.B.

  • Сообщений: 880
  • Страна: il
  • Рейтинг +223/-0
  • Y-ДНК: R1a (R-A8995*)
  • мтДНК: K1a1b1a
Re: Конвертация файла .vcf
« Ответ #18 : 15 Январь 2020, 15:28:39 »
для бесплатной доставки одного кита MyHeritage код BABBLEBOXX1
Это с декабря не работает, к сожалению.

Верно, проверил - отменили. Тогда код DNADISCOUNT для скидки $20 на каждый кит - работает.

Оффлайн PetramariaАвтор темы

  • Сообщений: 9
  • Страна: ru
  • Рейтинг +0/-0
Re: Конвертация файла .vcf
« Ответ #19 : 17 Январь 2020, 03:23:55 »
Большое спасибо всем за подсказки, буду прорабатывать именно варианты с анцестри и 23андми. Хочу именно их, потому что интересуют совпаденцы именно в штатах и к ним нельзя загрузить свой файл, а к остальным можно. Кстати, не знаю как у анцестри с платежом, но я писала в поддержку 23эндми не так давно, так они сказали, что они не только не отправят в Россию, но и оплату с российской карты они тоже не примут. Как вы решали вопрос с оплатой теста?

Оффлайн Alexey_V.B.

  • Сообщений: 880
  • Страна: il
  • Рейтинг +223/-0
  • Y-ДНК: R1a (R-A8995*)
  • мтДНК: K1a1b1a
Re: Конвертация файла .vcf
« Ответ #20 : 17 Январь 2020, 03:53:51 »
"охота - пуще неволи" ;) потом на FTDNA и MyHeritage загрузите - полагаю будет больше совпаденцев, хотя (пока) единственного по мужской линии (и уже американца при этом) принес Ancestry. могу ошибаться, но 23andMe популярен в штатах из-за медицинского теста.
оплата Ancestry - росс. картой Alfa-bank (привязав к долл. счету, но это не важно).
23andMe - оплачивал PayPal той же росс. картой.

Оффлайн nt86

  • Сообщений: 2
  • Страна: ru
  • Рейтинг +0/-0
  • Y-ДНК: I2a1b2a1a
Re: Конвертация файла .vcf
« Ответ #21 : 01 Январь 2022, 18:03:06 »
Извиняюсь за подъем старой темы, сильно не пинайте. Делаю ту же процедуру, что и автор, конвертирую VCF файл из Генотека в 23_and_me_v5 через DNA Kit Studio. Глядя на файлы, я вижу одни и те же снипы, но вот значения некоторых снипов отличаются, в VCF например rs114525117=GA, а в сконвертированном файле rs114525117=GG, и так примерно половина снипов! Почему так происходит?

Примеры из исходного файла, прямо буквально с первых строчек:
Цитировать
#CHROM   POS   ID   REF   ALT   QUAL   FILTER   INFO   FORMAT   gr4316
chr1   752721   rs3131972   A   G   .   .   .   GT   0/1
chr1   759036   rs114525117   G   A   .   .   .   GT   0/0
chr1   866893   rs2880024   T   C   .   .   .   GT   0/1
chr1   868404   rs13302914   C   T   .   .   .   GT   1/1

Те же снипы из результата конвертации. Результат совпал только у первого снипа, у третьего буквы переставлены, у остальных двух вообще другие буквы..
Цитировать
# rsid   chromosome   position   genotype
rs3131972   1   752721   AG
rs114525117   1   759036   GG
rs2880024   1   866893   CT
rs13302914   1   868404   TT

Если конвертировать в FTDNA формат, то третьего и четвертого снипа вообще нет в файле, а у первых двух такие же значения как в 23_and_me.

Оффлайн NathanS

  • Сообщений: 1277
  • Страна: 00
  • Рейтинг +1202/-2
Re: Конвертация файла .vcf
« Ответ #22 : 01 Январь 2022, 18:17:37 »
Почему так происходит?

https://samtools.github.io/hts-specs/VCFv4.2.pdf
Цитировать
GT : genotype, encoded as allele values separated by either of / or |. The allele values are 0 for the reference
allele (what is in the REF field), 1 for the first allele listed in ALT, 2 for the second allele list in ALT and
so on. For diploid calls examples could be 0/1, 1 | 0, or 1/2, etc. For haploid calls, e.g. on Y, male nonpseudoautosomal X, or mitochondrion, only one allele value should be given; ... ◦ / : genotype unphased, ◦ | : genotype phased

Оффлайн nt86

  • Сообщений: 2
  • Страна: ru
  • Рейтинг +0/-0
  • Y-ДНК: I2a1b2a1a
Re: Конвертация файла .vcf
« Ответ #23 : 02 Январь 2022, 16:08:41 »

Цитировать
GT : genotype, encoded as allele values separated by either of / or |. The allele values are 0 for the reference
allele (what is in the REF field), 1 for the first allele listed in ALT, 2 for the second allele list in ALT and
so on. For diploid calls examples could be 0/1, 1 | 0, or 1/2, etc. For haploid calls, e.g. on Y, male nonpseudoautosomal X, or mitochondrion, only one allele value should be given; ... ◦ / : genotype unphased, ◦ | : genotype phased

Спасибо, после чтения документации стало понятней. На всякий случай переведу, что я понял, если вдруг кто-то в будущем будет интересоваться темой. В VCF файле содержатся отличия ваших результатов от референсного генома, а именно, в столбце REF находятся значение в референсном геноме, а в столбце ALT - альтернативное значение, которое может быть в вашем геноме (но не факт). При этом, какая комбинация REF и ALT является вашим результатом, зависит от столбца GT (генотип).
  • GT=0/0 - ваш результат REF REF, т.е. совпадает с референсом
  • GT=0/1 - ваш результат REF ALT (или ALT REF)
  • GT=1/1 - ваш результат ALT ALT

А в формате 23_and_me как раз в последний стоблец пишутся только ваши результаты без референса.

Теперь с этим новым знанием я вижу, что некоторая информация при конвертации все же пропадает, например в VCF файле есть строчки где вместо названия снипа пишется позиция, или название снипа через точку с запятой или два названия снипа на одну позицию, всё это после конвертации исчезает.
Цитировать
chr2   234651722   hg19-chr2-234651722-G-A   G   A   .   .   .   GT   0/0
chr2   234673239   hg19-chr2-234673239-G-T;rs3771341   G   A,T   .   .   .   GT   0/0
chr2   234671363   rs34681509;rs756082416   GT   G   .   .   .   GT   0/0

Часть нормальных снипов тоже не попало в результат. И наоборот, по крайней мере в MT результате, я вижу что в 23_and_me какие-то новые значения, которых нет в исходнике.

Например, в исходнике снипы на позициях 16164, 16175, 16180:
Цитировать
chrM   16164   rs41479950   A   G   .   .   .   GT   0
chrM   16175   rs879124420   C   T   .   .   .   GT   0
chrM   16180   rs28509370   C   T   .   .   .   GT   0

В 23_and_me внезапно появился снип на позиции 16172 со значением С, а вот снипов на 16175, 16180 нету.
Цитировать
rs41479950   MT   16163   --
i4000849   MT   16164   A
i4000844   MT   16166   --
i4000786   MT   16167   --
i4000787   MT   16169   --
i4000783   MT   16170   --
rs2853817   MT   16172   C
i4000780   MT   16173   --
i705901   MT   16174   --
i4001356   MT   16176   --
i701184   MT   16178   --
rs35134837   MT   16217   --

Это нормально или издержки конвертации?

Оффлайн NathanS

  • Сообщений: 1277
  • Страна: 00
  • Рейтинг +1202/-2
Re: Конвертация файла .vcf
« Ответ #24 : 02 Январь 2022, 16:26:20 »

В 23_and_me внезапно появился снип на позиции 16172 со значением С, а вот снипов на 16175, 16180 нету.
Цитировать
rs41479950   MT   16163   --
i4000849   MT   16164   A
i4000844   MT   16166   --
i4000786   MT   16167   --
i4000787   MT   16169   --
i4000783   MT   16170   --
rs2853817   MT   16172   C
i4000780   MT   16173   --
i705901   MT   16174   --
i4001356   MT   16176   --
i701184   MT   16178   --
rs35134837   MT   16217   --

Это нормально или издержки конвертации?
С 16172 похоже на ошибку. Некоторые снипы могут изчезать так как они вероятно отсутствуют в чипе 23andme.
Попробуйте сконвертировать WGS Extract https://wgsextract.github.io/

PS: Прогоните свой VCF от Генотека через CladeFinder в YSEQ: https://cladefinder.yseq.net/
Сможете определить свой снип выоского, а может и среднего уровня.

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Re: Конвертация файла .vcf
« Ответ #25 : 02 Январь 2022, 18:11:53 »
референс мт у 23 часом не йоруба? посмотрите длину в заголовке VCF
у йорубы длина 16571бп
если там не rCRS то руками лучше с данными оттуда не работать, а конвертировать

Оффлайн Veprya

  • Сообщений: 61
  • Страна: kz
  • Рейтинг +7/-0
  • R-M198, gedmatch: H730833
  • Y-ДНК: R-M198
Re: Конвертация файла .vcf
« Ответ #26 : 25 Июль 2022, 20:45:08 »
Возможно не потеме, но похоже моё примечание связанно с конвертацией, только на стороне Генотека. Делал: скачал файлы с FTDNA (Build 37 Autosomal и Build 37 Concatenated) и загрузил их в Genotek. Генотек каждому сказал что обнаружил брата близница, но сумма IBD-сегментов 4960 сМ (69.95%)! К тому же не смог предсказать гаплогруппу, сообщив, что недостаточно данных. Но этому человеку на фтдна проведён Y-12 А ещё у разных файлов разный расчёт этносов. У первого 2, у второго 3 этноса обнаружил генотек. Ещё сделал две загрузки для другого человека, но загрузил один и тот же файл! генотек сообщил, что нашел сестру близнеца, сумма IBD-сегментов 6770 сМ (95.47%). Почему-то не 100%.

Оффлайн Farroukh

  • Maternal Y-DNA: R1b-BY124371
  • ...
  • Сообщений: 17097
  • Страна: az
  • Рейтинг +5908/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Re: Конвертация файла .vcf
« Ответ #27 : 25 Июль 2022, 21:41:19 »
Скачанный с ФТДНА файл не содержит данных по игреку и мито, бесполезно выбивать из него гаплогруппы. Там лишь икс и прочие аутосомы.

Оффлайн Tusya84

  • Сообщений: 119
  • Страна: ru
  • Рейтинг +13/-0
Re: Конвертация файла .vcf
« Ответ #28 : 04 Октябрь 2022, 19:19:49 »
Подскажите, скачала файл из генотека и хотела конвертировать его в V5, но не пойму куда загружать и куда нажимать, подскажите, пожалуйста.

Оффлайн Val_Metov

  • Сообщений: 1240
  • Страна: ru
  • Рейтинг +912/-2
  • Y-ДНК: J-Y94477
Re: Конвертация файла .vcf
« Ответ #29 : 04 Октябрь 2022, 20:56:53 »
VCF file input (1 строка) - скармливаете исходник генотека.
Вторая строка, указываете место сохранения нового файла
3я строка выбираете 23adnme v5
Поставить галочку на 4ю строку.

А вот дальше я точно не помню, один из двух вариантов:
6я строка, by RSID и дальше конверт. Полученный файл скармливаете на FTNDA. Если ошибка загрузки, тогда в 6й строке вместе RSID выбираете by Position.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.