Эта проблема меня беспокоит уже много лет. WGS все же является более универсальным решением на будущее, но до полного решения еще очень далеко.
Вторая история - что это аутосомное тестирование теряет информацию о том, какая из нитей была протестирована. И опять же получается, что мы можем получить фантомных совпаденцев (что и наблюдается на практике похоже?).
К сожалению, и WGS по методике NGS не дает информации о том, какая нить была протестирована. Уже третье поколение секвенирования дает фазированные данные, но стоимость там просто зашкаливает. HiFi reads от PacBio можно заказать в DanteLabs - покрытие около 3-4х за почти 2000 евро. YSEQ экспериментирует с Oxford Nanopore, но там тоже покрытие около 3х, да и продукта как такового нет, небирают группу интересующихся с ценой около 1300 евро. Chromium LongReads предлагала FGS, но за совершенно *********** деньги, почти 10 000 долларов.
И если это так - то не заявка ли это на создание нового, более дорого, но и более точного аутосомного теста на базе WGS?
Тут многое упирается в доступность WGS и способность обработать данные. Где полный геном за 100$? До него еще далеко, учитывая политические и шкономические факторы. Китайцы вроде сделали такой секвенатор (
https://www.nsmedicaldevices.com/news/mgi-tech-rolls-out-ultra-high-throughput-sequencer/), но они его даже не продают, а сдают в аренду.
Он может выдавать по 50 000 геномов в год, но до коммерческого применения полагаю еще далеко.
Обработка данных. Тут пока не ясно - ранее читал, что 10 миллионов снипов актуально для исследования происхождения, потом видел цифру в 30 миллионов, потом в 50 миллионов. Даже если взять 10 миллинов снипов - да, совпадения будут точнее и можно копать глубже, т.е. за пределами 5-8 поколений, но и степень достоверности совпадений будет ниже, а количество неопределяемых ветвей предков больше. Переход к 10 миллионам снипов будет почти 20 кратным увеличением количества данных, а ресурсы на обработку информации будут расти экспоненциально. Т.е. если взять базу с десятком миллионов результатов, а там по десятку миллиона снипов в каждом, то мы по полгода будет ждать результатов сравнения. Ну, вопрос по-своему решаемый, да и можно подождать с дальними совпаденцами.
И что тогда делать с конвертацией старых данных? Тем более, учитывая, что аутосомное тестирование было сделано уже на целой пачке разных чипов...
То решение, которое применяется сейчас - импутация данных. Уже переход на чип GSA меня сильно беспокоил - там со старым OmiExpress общих снипов 100-140 тысяч. Вот и появляются ложные совпаденцы. Старые данные будут иметь очень ограниченную применимость при переходе еще на один чип или на WGS. Я писал в FTDNA по поводу перехода на GSA и возможности применения других чипов с 2,5 или 5 миллионами снипов, но ответа не получил.
За WGS будущее - это коплексное решение и по аутосомам, и по Y, и по мито. А с аутосомами можно играться сколько душе угодно - выбирай любой подходящий набор и гоняй по любым калкуляторам, сравнениям и т.д. Для прорыва нужен WGS менее, чем за 100$.