То есть, если данные ФТДНА и 23эндМи коррелируют друг с другом (тот же порядок популяций в десятке, с небольшими флюктуациями по дистанциям). То данные от Данте Лабз - явно кривые. Чудные популяции. Огромные дистанции.
Незачёт.
Дело в том, что в файлах VCF исключены те снипы, где значения совпадают с референсом. Если бы Gedmatch Genesis их добавили, получилось бы близко к FTDNA/23andMe. Данте Лабз можно обвинить только в том, что не хотят предоставлять клиентам файл в нужном формате по умолчанию, но сами данные должны быть нормальными.
https://en.wikipedia.org/wiki/Variant_Call_Format - VCF и был задуман так, чтобы не передавать информацию, которая повторяется от генома к геному, а передавать только отличия от референса. Весь смысл в экономии места для хранения данных. Вот здесь
ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/ можно найти VCF со всеми известными отличиями, снипами. Это даже не сам референс. Файл весит 15,2 гигов, а раззипованный он весит аж 131 гиг. VCF от Данте весит 1,2Г зипованный и 8Г раззипованный.
Мы конечно из BAMа можем сделать VCF хоть по всей последовательности ДНК, хоть по всем извесным снипам. Ну и вот грузим мы все это на Гедматч, каждый по 15 гигов, а потом это все на сервере обрабатывать, открывать зипованые файлы или индексировать их, чтобы на прямую читать, а потом в базу данных со сравнениями. Думаю, что бесплатным сервисом на Гедматч Вы тогда не обойдетесь - хранить и обрабатывать такой обьем данных будет стоит - нужны большие жесткие диски плюс мощность процессоров. Это же не результаты с ФТДНА или Анцестри размером в 6-7 Мб.
Тут проблемы, не у Данте, а у ГедМатча:
- где это все хранить, да так чтобы одновременно безопасно и удобно обрабатывать,
- мощность на обработку, а следовательно дорогой сервер,
- как все это обрабатывать, и сейчас эта проблема хорошо видна.
Их старый алгоритм не учитывает референса, а считает только совпадения по снипам в VCF. Результат - масса фальшивых совпадений, особенно с теми, кто тестировал только экзом и без малейшего понятия о том, что они тестировали, заливают все в Генезиз, а потом пишут мэйлы о совпадениях. Даже те, кто сделал полный геном, тоже дают фальшивые совпадения (проверено).
Опять же обьем данных. Не знаю сколько записей в том файле на 15 гигов, но есть файл поменьше на 1,5 гига - обычные снипы, т.е. встречаются у более 1% населения. Так только этот файл содержит 37,5 миллионов снипов. Спрашивается - как это все эффективно обработать для 100 000 пользователей, ну или хотя бы для 10 000? Не хранить и не создавать повторяющиеся снипы, да еще учесть переход с GRCh37/hg19 на GRCh38 с переменой мест некоротых последовательностей ДНК. Ну а в дополнение у нас еще и вебстраница должна работать.