Пока не разобрался, как читать BAM. Не смог установить все модули из-за несовестимости между Python 2 и 3.
Пока пробую работать с VCF - этот файл доступен клиентам Dante Labs напрямую, как будут доступны результаты. Да и работать с ним проще - не надо дополнительных модулей.
Загрузка VCF для hg19/GRCh37 занимает время (8 Gb). Посмотрим, что будет.
Пока сделал базу данных по снипам в ФТДНА, Ancestry и MyHeritage.
FTDNA, MyHeritage, Ancestry - 427'455 общих снипов,
FTDNA, MyHeritage - 292'879 общих снипов,
FTDNA, Ancestry - 15 общих снипов,
Ancestry, MyHeritage - 270 общих снипов,
FTDNA - 1 уникальный снип,
MyHeritage - 212 уникальных снипов (все в Y-хромосоме)
Ancestry - 241'202 уникальных снипов.
----------------------------------------------------------------------------------------
Сумма 962'034 снипа
VCF из Dante Labs дает 3'426'278 снипов отличных от эталонного генома (hg19, в моих результатах из Данте).
Планирую сделать так:
проверять VCF на генотип (962'034 снипа),
при отсутсвии генотипа в VCF, брать генотип из референса,
вывести все как файл в формате FTDNA/MyHeritage,
протестирую загрузить на GEDmatch.