Мне нужна консультация по результатам решения одной задачи.
У меня есть raw-файл от 23andMe и файл FASTA с полным сиквенсом мтДНК. Что-то мне взбрело в голову сравнить значения, и вот что вышло:
1. По моим расчётом получилось, что результаты сиквенса различаются в 13 позициях: 208,300,469,5820,5877,8285,10388,14290,14422,15072,16179,16180,16392
Что составляет 0.5%
2. В одной из таких позиций в 23andMe на месте нуклеотида, внезапно, стоит буковка I : "i4000892 MT 8285 I". Хотя у 23andMe такое встречается в Haplogroup Tree Mutation Mapper, значит это не баг, и они в курсе.
3. 42 позиции в raw-файле от 23andMe помечены черточками '--'. То ли не нашли там ничего, то ли что-то другое...неизвестно.
4. Позиция 315 в файле FTDNA встречается два раза под именами 315.1 и 315.2, а в 23andMe не встречается совсем. За исключением этого места, я считал, что в FASTA-файле от FTDNA все позиции идут подряд.
Хотя есть ещё одна двойная позиция: 522.1 и 522.2, - единственная, которая вычисляется неправильно из файла в сравнении с данными FTDNA на странице mtDNA - Results. Но судя по тому, что неучтённость 522 не рушит все остальные расчёты, где-то, значит есть и пропуски. Короче говоря, 13 ошибок говорят либо о том, что где-то в тех районах различия в нумерации снипов между 23andMe и FTDNA, либо это и правда ошибки.
5. Позиция 11719 у 23andMe повторяется два раза под разными именами: rs2853495 и i3001044. Одна из них отмечена прочерками, а вторая совпадает с аналогичной из FASTA-файла.
Чувствую, что где-то есть ошибки в алгоритме сравнения, так что хочу, чтобы кто-нибудь проверил на своих файлах.
Тут у меня даже есть средство, программа на HTML. Надо просто скачать, запустить, выбрать файлы (RAW-файл с данными мтДНК от 23andMe и FASTA-файл с полным сиквенсом от FTDNA) и нажать "Посчитать" (приветствуются современные браузеры, но должно работать везде, полный файл 23andMe обрабатывается несколько дольше, чем только с мтДНА). Все расчёты делаются на локальном компьютере, в интернет ничего не идёт:
https://dl.dropboxusercontent.com/u/18527863/DNA/mtdnacompare.zipФайл надо просто распаковать и запустить в любом современном браузере. Должон работать везде, точно в Google Chrome.
Проверить, насколько правильно считаны данные из файлов, можно выбрав позицию в мтДНК и нажав кнопку "Проверить позицию". Исходный код - сам по себе файл html, можно посмотреть, что там да как.