20 июня на фейсбуке была опубликована новая бета-версия программы WGS Extract. Теперь можно генерировать комбинированный файл исходных данных "из коробки".
Ну надо же, как я поторопился
еще в мае склепал своим самопалом, что оказалось немного зануднее, чем я надеялся. Да, к похожим выводам с фтДНК и я пришел в ходе этого сравнения - что примерно 1% маркеров имеют разные генотипы между данныи фтДНК и Данте, и что в основном это связано с тем, что лажает фтДНК. Больше всего таких различий, когда Данте утверждает, что оба аллеля wildtype, а familytreeDNA - что оба аллеля нестандартные. Мне показалось совершенно невероятным, что в таком количестве маркеров секвенирование имело бы нулевое покрытие, и вообще пропустило бы гомозиготный геноптип, но специально в БАМ-файл я не лазил.
Однако, зная, как ведут себя некачественные маркеры на чипах, и рассудивши, что многие из лажовых маркеров фтДНК не все время, не 100% сстематически дают неправильный генотип, а лишь время от времени, возможно, от группы к группе образцов меняя поведение (batch effect), я решил попробовать просто сравнить поведение оригинальных и воссозданных файлов формата фтДНК при загрузке на Myheritage.
И, действительно, воссозданные файлы работали лучше (с известными дальними родственниками все совпадения сохранились, причем иногда прибавилось по 10-15 сМ; и в этнической раскладке Myheritage "увидел", наконец, "финскую" компонентu, которая мне хорошо известна и по семейной истории, и по данным 23andMe, но при загрузке оригинальных данных фтДНК не определялась).
Так что мой вывод, что достаточно многие из некачественных маркеров у фтДНК не просто тупо систематически давали одинаковый результат у всех тестируемых, а реально производили шум и мешали алгоритмам анализа...