20 июня на фейсбуке была опубликована новая бета-версия программы WGS Extract. Теперь можно генерировать комбинированный файл исходных данных "из коробки".
Ну надо же, как я поторопился еще в мае склепал своим самопалом, что оказалось немного зануднее, чем я надеялся. Да, к похожим выводам с фтДНК и я пришел в ходе этого сравнения - что примерно 1% маркеров имеют разные генотипы между данныи фтДНК и Данте, и что в основном это связано с тем, что лажает фтДНК. Больше всего таких различий, когда Данте утверждает, что оба аллеля wildtype, а familytreeDNA - что оба аллеля нестандартные. Мне показалось совершенно невероятным, что в таком количестве маркеров секвенирование имело бы нулевое покрытие, и вообще пропустило бы гомозиготный геноптип, но специально в БАМ-файл я не лазил.
Все-таки выяснилось, что я валил на фтДНК лишнего и часть несоответствий между моим самопальным экстрагированием генотипа из VCF-файлов Данте было связано или с моей собственной конверсией, или с проблемами при создании VCF файла.
Конвертированный файл от WGSExtract содержал гораздо меньше пропущенных генотипов ( 1149 ). Из несоответствий между генотипами от Данте и от фтДНК, еще 14170 были пропущены у фтДНК.
В 489 маркерах разночтение заключалось в том, что фтДНК нашла больше wildtype аллелей, чем Данте: 218 генотипов фтДНК назвала только wildtype/wildtype, а Данте нашла вариантный аллель; еще в 271 случае фтДНК "увидела" гетерозиготный генотип, а согласно Данте это была гомозигота.
Заметно больше (2674) было несоответствий, когда фтДНК "увидела" больше вариантных аллелей, чем Данте:
1572 случая, когда Данте указывает на wildtype/wildtype, а фтДНК видит гетерозиготу, и 1102 - когда Данте видит 1 или 2 wildtype аллеля, а фтДНК - чистую гомозиготу.
Кто тут прав или неправ, так сходу не скажешь. Но можно посмотреть, хорошее ли покрытие спорных маркеров у Данте, и также можно сравнить с "третейским арбитром" (посмотреть, что видно по спорным позициям у 23andMe)
=====
Upd: Подавляющая причина дополнительных разночтений в моей самопальной конверсии - в том, что для примерно 0.5% маркеров я не нашел строку в VCF файле с этими позициями, и сделал вывод, что генотип wildtype/wildtype. В то время как WGS extract пришла к другому выводу. С чем связано отсутствие результатов поиска в VCF файле, не разбирался пока, но возможна одна из 2-х проблем: или в этих местах слабое покрытие или низкое качество, и Данте проигнорировало эти позиции при создании VCF-файла, или в этой позиции определился не просто СНИП, а двух- или более нуклеотидное изменение, и Данте поставило соседнюю позицию в VCF-файл.
В общем, в моей самапалке 1% генотипов разошлись, а вот у WGS extract расхождений вдвое меньше.