Захотел ради интереса сам реализовать этнокалькулятор. Взял для примера Jtest K14 от Eurogenes (
http://bga101.blogspot.com.by/2012/09/eurogenes-ashkenazim-ancestry-test-files.html). В архиве вижу 3 файла. Первый -
Jtest.frq, в котором есть следующие данные:
CHR - номер хромосомы;
SNP - снип;
A1 - Аллель 1 (обычно второстепенная);
A2 - Аллель 2 (обычно главная);
MAF - как я понял, это коэффициент, когда главная аллель главная, а второстепенная - второстепенная;
NCHROBS - Number of allele observations (как я понял, в расчетах не участвует).
2-й файл -
Jtest.14.P В нем количество строчек равняется количеству снипов из первого файла, а количество коэффициентов - количеству этносов в калькуляторе (т.е. 14).
Собственно, на основании этого напросился такой вывод: беру RAW Data с FTDNA, сравниваю снипы из RAW Data со снипами из
Jtest.frq. Нахожу совпадение - смотрю, что на аллелях. Если, например, в RAW Data CT и в
Jtest.frq по этому снипу и хромосоме тоже CT, совпадению придаю значение 1, если не CT, а TC, то значение MAF (оно всегда меньше единицы). Если аллели не совпадают (хотя бы одна) - игнорирую совпадения снипа. Потом для этого же снипа полученное значение (1 или MAF) умножаю на коэффициенты для каждого этноса в
Jtest.14.P. Полученные результаты для каждого этноса суммирую по каждому этносу и потом делю их на общее количество. Итогом для каждого этноса будет значение от 0 до 1. Вроде бы логично, но в результате для всех этносов я получил очень похожие значения, примерно равные 0.43 - 0.44 Значит, либо я не правильно понял алгоритм, либо не правильно его реализовал. Подскажите, как правильно использовать данные из приведенных выше файлов?