Реконструкция аутосомного ДНК умершего предка возможна и основана на принципах генетического наследования и использовании вычислительных методов. Цель состоит в том, чтобы собрать сегменты ДНК предка, которые были унаследованы его потомками.
**Теоретическая основа**
Каждый потомок (например, внук) наследует примерно 25% ДНК от каждого из своих бабушек/дедушек, но конкретные унаследованные сегменты различаются у разных потомков. Путем тестирования достаточного количества потомков, можно собрать воедино значительную часть аутосомного генома предка, перекрывая унаследованные ими сегменты.
**Методология реконструкции**
Процесс реконструкции включает несколько ключевых этапов:
1. **Сбор данных аутосомных тестов**
* Необходимо протестировать максимально возможное количество ближайших родственников предка.
* Особо ценным является тестирование внуков, особенно тех, кто происходит от разных детей предка, поскольку это увеличивает вероятность охвата различных сегментов ДНК предка.
* Тестирование других родственников (например, супругов детей предка) также может быть полезным для исключения сегментов ДНК, унаследованных не от целевого предка.
2. **Фазирование данных**
* Этот шаг подразумевает разделение генотипов каждого протестированного потомка на материнские и отцовские гаплотипы.
* Для этого используются специализированные инструменты, такие как SHAPEIT, Eagle или Beagle. Ошибки фазирования могут привести к дроблению сегментов и снижению точности.
3. **Идентификация и триангуляция IBD-сегментов**
* Определяются сегменты Identity-By-Descent (IBD) между всеми парами протестированных потомков. IBD-сегменты — это участки ДНК, унаследованные от недавнего общего предка.
* Для выявления IBD-сегментов используются инструменты, такие как GERMLINE, Refined IBD или Hap-IBD.
* Триангуляция - это процесс идентификации IBD-сегментов, которые совпадают у трех или более потомков. Считается, что такой подход помогает подтвердить, что сегмент действительно был унаследован от общего предка, и исключить ложные совпадения или сегменты, полученные от других линий.
4. **Сборка гаплотипов предка**
* Подтвержденные триангулированные сегменты используются для сборки консенсусных гаплотипов предка.
* Каждый триангулированный участок может формировать "сборочный блок" гаплотипа, а затем эти блоки "склеиваются" по хромосомам. В случае несовпадения границ сегментов на основе данных разных потомков, может приниматься "большинство голосов" для определения консенсусной границы.
* Существуют алгоритмы и инструменты, специально разработанные для реконструкции ДНК предков на основе данных потомков, включая:
* **HAPI-RECAP**: Восстанавливает ДНК родителей по данным полноправных братьев/сестер и их родственников.
* **HAPI**: Инструмент для воссоздания профиля одного родителя на основе данных трех и более детей и второго родителя.
* **"Lazarus" в GEDmatch**: Генерирует "псевдо-набор" ДНК умершего предка, используя данные нескольких потомков.
* **RABBIT**: HMM-фреймворк для поблочной реконструкции родовых участков в расширенных родословных.
* **ARG-Needle**: Строит генеалогические графы и позволяет извлекать профили предков.
5. **Импутация недостающих участков**
* Поскольку полная реконструкция 100% генома обычно невозможна, остаются пробелы.
* Для заполнения этих пробелов (импутации) используются референсные панели, основанные на данных популяций. Это может быть панель общепопуляционных или "быстрофазированных" данных.
* Импутация позволяет увеличить покрытие и получить более "плотный" профиль.
* Важно учитывать, что выбор референсной панели может внести предвзятость, если она не соответствует вероятному популяционному происхождению предка.
* Инструменты для импутации включают Beagle, Minimac и PRIMAL.
**Программные инструменты**
Некоторые из упомянутых инструментов, используемых на разных этапах процесса:
* Фазирование: Beagle, SHAPEIT.
* Поиск IBD: GERMLINE, Refined IBD, Hap-IBD.
* Реконструкция: HAPI-RECAP, HAPI, Lazarus (в GEDmatch), RABBIT, ARG-Needle.
* Импутация: Beagle, Minimac, PRIMAL.
* Визуализация и анализ: DNA Painter, GEDmatch. Также возможно создание собственного решения с использованием языков программирования, таких как Python, и библиотек для биоинформатики.
**Ограничения метода**
Несмотря на возможности, метод имеет ряд ограничений:
* **Неполная реконструкция:** Практически невозможно восстановить 100% генома предка.
* **Зависимость от данных потомков:** Точность и полнота реконструкции прямо пропорциональны количеству и степени родства протестированных потомков. Чем больше потомков, особенно от разных ветвей семьи, тем лучше. Например, тестирование минимум 4-5 внуков, желательно от разных детей предка, может позволить восстановить до 70-80% генома. Для реконструкции ДНК родителей из четырехдетных семей было в среднем восстановлено 70.6% генотипов.
* **Сложность различения источников ДНК:** При ограниченном объеме данных может быть трудно точно определить, какие сегменты принадлежат целевому предку, а какие — его супругу или другим предкам.
* **Проблемы с фазированием:** Ошибки на этапе фазирования данных потомков могут привести к некорректному разбиению или слиянию сегментов.
* **Ложные IBD:** Без тщательной фильтрации и триангуляции возможно включение в реконструкцию сегментов, которые не были унаследованы от общего предка.
* **Пробелы и разнообразие данных:** Неполное генотипирование или низкое качество ДНК у потомков может создавать пробелы в покрытии генома предка.
**Экспорт и загрузка результатов**
После реконструкции можно подготовить файл, содержащий реконструированный геном, для загрузки в генеалогические базы данных, такие как GEDmatch. Обычно используются форматы VCF или CSV с определенной структурой. Важно включить только достоверно реконструированные SNP и метаданные о предке. GEDmatch является платформой, которая поддерживает загрузку таких "псевдо-наборов" ДНК, часто через инструмент "Lazarus" в рамках платного уровня доступа (Tier 1). DNA Painter также позволяет визуализировать и работать с реконструированными сегментами.
**Этические аспекты**
Важно учитывать этические моменты, включая получение информированного согласия от всех потомков, чьи данные будут использоваться для реконструкции.
Таким образом, технологически реконструкция аутосомного профиля умершего предка возможна и активно применяется в генеалогических исследованиях с использованием различных инструментов и алгоритмов. Однако конечный результат всегда будет частичным и его точность будет зависеть от качества и количества доступных данных потомков.
https://docs.google.com/document/d/19xmS3KUPk1B7Y-YHX97OrqeT1okqydaneS_4F4oH_Fs/edit?usp=sharinghttps://notebooklm.google.com/notebook/3d8c2dc9-0aa1-447e-afc5-9409b043a692?original_referer=https:%2F%2Fnotebooklm.google%23&pli=1