GT : genotype, encoded as allele values separated by either of / or |. The allele values are 0 for the reference
allele (what is in the REF field), 1 for the first allele listed in ALT, 2 for the second allele list in ALT and
so on. For diploid calls examples could be 0/1, 1 | 0, or 1/2, etc. For haploid calls, e.g. on Y, male nonpseudoautosomal X, or mitochondrion, only one allele value should be given; ... ◦ / : genotype unphased, ◦ | : genotype phased
Спасибо, после чтения документации стало понятней. На всякий случай переведу, что я понял, если вдруг кто-то в будущем будет интересоваться темой. В VCF файле содержатся отличия ваших результатов от референсного генома, а именно, в столбце REF находятся значение в референсном геноме, а в столбце ALT - альтернативное значение, которое может быть в вашем геноме (но не факт). При этом, какая комбинация REF и ALT является вашим результатом, зависит от столбца GT (генотип).
- GT=0/0 - ваш результат REF REF, т.е. совпадает с референсом
- GT=0/1 - ваш результат REF ALT (или ALT REF)
- GT=1/1 - ваш результат ALT ALT
А в формате 23_and_me как раз в последний стоблец пишутся только ваши результаты без референса.
Теперь с этим новым знанием я вижу, что некоторая информация при конвертации все же пропадает, например в VCF файле есть строчки где вместо названия снипа пишется позиция, или название снипа через точку с запятой или два названия снипа на одну позицию, всё это после конвертации исчезает.
chr2 234651722 hg19-chr2-234651722-G-A G A . . . GT 0/0
chr2 234673239 hg19-chr2-234673239-G-T;rs3771341 G A,T . . . GT 0/0
chr2 234671363 rs34681509;rs756082416 GT G . . . GT 0/0
Часть нормальных снипов тоже не попало в результат. И наоборот, по крайней мере в MT результате, я вижу что в 23_and_me какие-то новые значения, которых нет в исходнике.
Например, в исходнике снипы на позициях 16164, 16175, 16180:
chrM 16164 rs41479950 A G . . . GT 0
chrM 16175 rs879124420 C T . . . GT 0
chrM 16180 rs28509370 C T . . . GT 0
В 23_and_me внезапно появился снип на позиции 16172 со значением С, а вот снипов на 16175, 16180 нету.
rs41479950 MT 16163 --
i4000849 MT 16164 A
i4000844 MT 16166 --
i4000786 MT 16167 --
i4000787 MT 16169 --
i4000783 MT 16170 --
rs2853817 MT 16172 C
i4000780 MT 16173 --
i705901 MT 16174 --
i4001356 MT 16176 --
i701184 MT 16178 --
rs35134837 MT 16217 --
Это нормально или издержки конвертации?