АвторТема: Качество аутосомного теста для генеалогии  (Прочитано 2530 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Mikl1984Автор темы

  • R1b R-BY1823 R-FTA13144
  • Сообщений: 478
  • Страна: ru
  • Рейтинг +134/-0
  • H2a1f4
В этом году сделал несколько тестов для себя и родственников
Компании выбирались сначала наобум (Генотек, MyHeritage), потом более осознанно (FTDNA)
Получив свои результаты от всех, пробовал их интерпретировать
Быстро понял, что для этники вся троица не сильно подходит :( , при чем Генотек хуже всех https://isogg.org/wiki/Admixture_analyses
При чем это было и в прошлые годы, когда он выдавал 600K снипов, в этом году новое дно - 500К

Итак как оцениваем. По методике isogg. Используем https://dnagenics.com/admixture-studio/ для тестов
Прога пишет количество используемых снипов для расчета
Вот результат моего теста FTDNA для K13
SNPs used for the calculation: 77 968
SNPs in calculator: 182 705
Genotype ratio: 42,67%

А это мой ущербный Genotek
SNPs used for the calculation: 52 361
SNPs in calculator: 182 705
Genotype ratio: 28,66%

Тоже самое проделываем для K36, который повсеместно используется для симуляции координат в G25
Очень похожая картинка
FTDNA
SNPs used for the calculation: 72 180
SNPs in calculator: 165 688
Genotype ratio: 43,56%
MH
SNPs used for the calculation: 72 426
SNPs in calculator: 165 688
Genotype ratio: 43,71%
Г...
SNPs used for the calculation: 46 166
SNPs in calculator: 165 688
Genotype ratio: 27,86%

Как еще можно оценить качество теста?
Через количество и качество совпаденцев
В этом году MH перестал принимать сторонние тесты :(
Остаются ftdna, gedmatch, genotek и familio
Все используют свои сеты снипов и алгоритмы, но думаю, методику можно придумать
Также надо учитывать импьютинг, сейчас вижу, что его в этом году начали использовать и Генотек (из-за плохого качества считывания с чипа) в своем vcf и MH с августа (возможно в связи с подготовкой близкого перехода на 2x WGS)

Из самого простого можно смотреть на число используемых снипов в gedmatch, раз все так любят сравнивать свои киты там
Само собой смотрим и на количество совпаденцев
Это мой vcf, конвертированный в формат 23&me
Number of original snps is 493304
Usable SNPS is 447218
Usable SNPS (slim) is 365734
Slimmed by 18.2 Pct.
HeteroX: 0.012194
Total matches for all kits in Database: 4718681384768
Total matches with kit KH??????? = 736818 = 1.5614913148798E-5 Pct. of all matches in the entire GEDmatch database

A вот покупной импьют в V5
Number of original snps is 628790
Usable SNPS is 493233
Usable SNPS (slim) is 395157
Slimmed by 19.9 Pct.
HeteroX: 0.033581
Total matches for all kits in Database: 4718681384768
Total matches with kit RJ???????? = 221630 = 4.6968629989604E-6 Pct. of all matches in the entire GEDmatch database

Совпаденцев уже в 3 с лишним раза меньше
Его приняли, но лжесовпаденцев все равно почти в 2 раза больше, чем дает файл ftdna
Number of original snps is 615633
Usable SNPS is 487926
Usable SNPS (slim) is 382150
Slimmed by 21.7 Pct.
HeteroX: 0
Total matches for all kits in Database: 4827639210496
Total matches with kit NZ????????= 125082 = 2.5909558387887E-6 Pct. of all matches in the entire GEDmatch database

Вообщем, приглашаю к обсуждению со своими мыслями
Я пока заказал WGS 30x  и Ancestry для полноты картины

Оффлайн Древ

  • Сообщений: 1173
  • Страна: ru
  • Рейтинг +346/-4
  • Y-ДНК: I-PH1410
  • мтДНК: H5a1a*
Re: Качество аутосомного теста для генеалогии
« Ответ #1 : 08 Ноября 2025, 22:07:29 »
Количество фейковых совпаденцев из этнофона едва ли может быть критерием оценки.
реальным критерием может быть настоящий дальний родственник, которого один сервис оценивает, например, в 5сМ, а другой в 10сМ. Вот это было бы важно.

Оффлайн Mikl1984Автор темы

  • R1b R-BY1823 R-FTA13144
  • Сообщений: 478
  • Страна: ru
  • Рейтинг +134/-0
  • H2a1f4
Re: Качество аутосомного теста для генеалогии
« Ответ #2 : 15 Ноября 2025, 17:53:17 »
реальным критерием может быть настоящий дальний родственник, которого один сервис оценивает, например, в 5сМ, а другой в 10сМ. Вот это было бы важно.
Это другой вопрос
Все сервисы оценят один и тот же тест по разному из-за разных панелей и алгоритмов

У меня задача оценить качество тестов из разных компаний, лучше на независимых площадках
Г... нельзя использовать, так как он уравнивает и количество совпаденцев и cM для разных тестов одного человека
Остаются ftdna и gedmatch, т.к. familio пока не показывает детали по совпадающим участкам на хромосомах

Например, в gedmatch есть 3 моих кита: из ftdna, импьют V5 из Генотек и свежий MH с импьютом
Также есть тесты моих детей в MH в доимпьютную эру полгода назад для контроля
Даже при их сравнении видно и качество импьюта, а оно отвратное у г... из-за малого числа считанных с чипа снипов
Попеременно сравниваем эти 3 теста и убеждаемся, что ftdna лучше всех, MH чуть хуже, г... на своём месте
На аутосомах разница небольшая, например при сравнении с ftdna видим 3576-3508/151, а вот на сильно импьютированном X она разительна 184-70/89-19


« Последнее редактирование: 15 Ноября 2025, 17:59:35 от Mikl1984 »

Оффлайн Mikl1984Автор темы

  • R1b R-BY1823 R-FTA13144
  • Сообщений: 478
  • Страна: ru
  • Рейтинг +134/-0
  • H2a1f4
Re: Качество аутосомного теста для генеалогии
« Ответ #3 : 07 Апреля 2026, 15:47:49 »
Продолжим изыскания
За это время появились у меня тесты Ancestry, ну, и  венец творения :) - WGS 30x
Сначала пару слов про получение супераутосома из результатов WGS. Надо иметь комп и установить прогу WGS Extract https://wgsextract.github.io/
В ней есть возможность получить из fastq или bam все необходимые файлы для загрузок в любые сервисы и самостоятельного сравнения
Супераутосом - это 2млн снипов из всех наборов коммерческих тестов. Называется CombinedKit.txt в формате 23andme.Его с удовольствием кушает gedmatch
Number of original snps is 2079218
Usable SNPS is 1377171
Usable SNPS (slim) is 1016062
Slimmed by 26.2 Pct.
HeteroX: 0.000477
Total matches for all kits in Database: 4647029540352
Total matches with kit UH6xxxx = 40362 = 8.6855484023763E-7 Pct. of all matches in the entire GEDmatch database

А это Ancestry для контраста
Number of original snps is 434816
Usable SNPS is 431608
Usable SNPS (slim) is 288951
Slimmed by 33.1 Pct.
HeteroX: 6.9E-5
Total matches for all kits in Database: 4647029540352
Total matches with kit JQxxxx = 30613 = 6.5876491066336E-7 Pct. of all matches in the entire GEDmatch database

Тут видим уже малое количество совпадений не из-за широкого покрытия, а из-за слишком узкого с потерей реальных совпадений. Также очень малое перекрытие с результатами других компаний
Обозревал недостатки текущих тестов Ancestry в теме https://forum.molgen.org/index.php/topic,4562.msg629874.html#msg629874
Но до сих пор они хороши для этники
K13
SNPs used for the calculation: 169 908
SNPs in calculator: 182 705
Genotype ratio: 93,00%
K36
SNPs used for the calculation: 152 521
SNPs in calculator: 165 688
Genotype ratio: 92,05%

По сравнению с супераутосомом из WGS отдыхают
K13
SNPs used for the calculation: 182 695
SNPs in calculator: 182 705
Genotype ratio: 99,99%
K36
SNPs used for the calculation: 165 664
SNPs in calculator: 165 688
Genotype ratio: 99,99%

Может как-нибудь загоню в реальные координаты G25

А пока в следующей серии поговорим не о количестве, а о качестве совпаденцев в gedmatch
Все сравнения будут с WGS 
« Последнее редактирование: 07 Апреля 2026, 16:22:29 от Mikl1984 »

Оффлайн Mikl1984Автор темы

  • R1b R-BY1823 R-FTA13144
  • Сообщений: 478
  • Страна: ru
  • Рейтинг +134/-0
  • H2a1f4
Re: Качество аутосомного теста для генеалогии
« Ответ #4 : 09 Апреля 2026, 17:53:23 »
Итак с теоретическим количеством совпаденцев в gedmatch определились
Не знаю, как они их считают, возможно с 3 cM, но гуляние от 30K до 700K на тестах одного человека впечатляет

Переходим к практике
Для поиска реальных совпаденцев использую в бесплатной версии 12 cM
Для отвратных тестов Генотек (далее Г...) приходится использовать и Overlap >45000 (обычно делаю 90000). Для нормальных не трогаю этот параметр.
Есть мудрецы, использующие 300K. https://forum.vgd.ru/post/527/104275/p5587977.htm#pp5587977 Не советую, обрежете реальных родственников

У меня сейчас в подтвержденных совпадениях супераутосома 17 тестов от 26.2   26.2   4.55 до 3577.3   151.8   0.00
Всего 118 совпаденцев. На диапазоне 26.3-70 их вообще нет. Будем отслеживать этот диапазон и на других тестах

У Ancestry всего 232 совпаденца. В контрольном диапазоне все совпаденцы реальные. Как и в случае этники видим специальную совместимость панели gedmatch с Ancestry. Что не убирает проблем слабого пересечения с другими панелями.

735 совпаденцев у теста ftdna. На  этом важном диапазоне 26.3-70 видим 43 лжесовпаденца с мелкими сегментами (<20).

MyHeritage начал применять импьют из Low-Pass WGS с лета 2025 года. Качество немного ухудшилось по сравнению с чипом, особенно заметно на X.
740 совпаденцев, 59 лже в контрольном.

У Г... на покупном импьюте V5 получается > 3000 совпаденцев, при Overlap 90000 нормальные 740, но обрезаются реальные совпаденцы из Ancestry например :(
Итак на 90000 имеем 63 лже в нашем диапазоне при отсекании 3 реальных
Обычный юзер при использовании Overlap 45000 по умолчанию имеет 88 лже
А если поставить 7 cM, который многие не меняют :) , получите 363 лже
Следует отметить, что никаких других вариантов загрузить инфу из Г... с 2025 года нет в связи уменьшением считанных снипов с 600K до 500K. А импьют добавляет больше 20% недостоверных снипов

Есть еще тесты жены
WGS 137 при 5 подтвержденных. Ветка не копалась дальше пра. Ей не интересно :( В диапазоне 5 совпаденцев, возможно реальных
FF 740, 70 в диапазоне, в основном лже

Сильные отличия WGS заметны на первых 50 совпадениях.
Как понимаете из предыдущих постов, наиболее близок к WGS тест FF ftdna, но надо использовать критерии для отсекания лже.. Хотя по X лучше всех Ancestry
Для себя сделал вывод, что серьезно смотрю на тестах других людей в gedmatch не меньше 60/20

Жду WGS дочки и внука, может продолжим на новых данных

Оффлайн B827656

  • Сообщений: 101
  • Страна: us
  • Рейтинг +33/-0
  • Y-ДНК: R-FT289278
  • мтДНК: H1c15
Re: Качество аутосомного теста для генеалогии
« Ответ #5 : 09 Апреля 2026, 20:29:51 »
"Как понимаете из предыдущих постов, наиболее близок к WGS тест FF ftdna"

Я уже писал, что по сравнению с трансфером с 23эндми, оригинальный тест FF обрезал базу совпаденцев почти в 2 раза, общие и самые длинные сегменты где то стали короче, где то длиннее, но плотность snp на участок увеличилось. Так понимаю что совпадения стали надежней, а уровень шума тупо убрали ::)

Оффлайн Mikl1984Автор темы

  • R1b R-BY1823 R-FTA13144
  • Сообщений: 478
  • Страна: ru
  • Рейтинг +134/-0
  • H2a1f4
Re: Качество аутосомного теста для генеалогии
« Ответ #6 : 10 Апреля 2026, 12:39:48 »
Я уже писал, что по сравнению с трансфером с 23эндми, оригинальный тест FF обрезал базу совпаденцев почти в 2 раза, общие и самые длинные сегменты где то стали короче, где то длиннее, но плотность snp на участок увеличилось. Так понимаю что совпадения стали надежней, а уровень шума тупо убрали ::)
Сравнивали только в ftdna?
Загрузитесь в gedmatch, у них совсем другая панель, существенно шире, сделана специально для сравнения тестов разных компаний

Оффлайн B827656

  • Сообщений: 101
  • Страна: us
  • Рейтинг +33/-0
  • Y-ДНК: R-FT289278
  • мтДНК: H1c15
Re: Качество аутосомного теста для генеалогии
« Ответ #7 : 11 Апреля 2026, 11:23:46 »
Я уже писал, что по сравнению с трансфером с 23эндми, оригинальный тест FF обрезал базу совпаденцев почти в 2 раза, общие и самые длинные сегменты где то стали короче, где то длиннее, но плотность snp на участок увеличилось. Так понимаю что совпадения стали надежней, а уровень шума тупо убрали ::)
Сравнивали только в ftdna?
Загрузитесь в gedmatch, у них совсем другая панель, существенно шире, сделана специально для сравнения тестов разных компаний

Диагностика файлов (Diagnostic Utilities):
Кит 23andMe: Usable SNPs (slim) — 394,936. Этот файл дает охват в 230,564 совпаденца в базе GEDmatch.
Кит FTDNA: Usable SNPs (slim) — 382,603. Охват базы ниже — 132,975 совпаденцев. При этом файл FTDNA имеет идеальный показатель HeteroX: 0
Для широкого поиска и охвата базы 23andMe эффективнее почти в два раза, так как видит на 12 тысяч рабочих снипов больше и имеет лучший охват аудитории.
Вопрос конечно нужны ли такие матчи ???
В общем примерно так же на ФТДНА родной ФФ урезал почти в 2 раза список совпадений по сравнению с 23эндми.
2. Прямое сравнение одного и того же совпаденца (One-to-One) для примера:
При сравнении  на обеих панелях получены следующие результаты:
На панели FTDNA: Общая сумма — 49.3 cM, самый длинный сегмент — 42 cM. Показатель перекрытия (Overlap) составил 280,019 снипов.
На панели 23andMe: Общая сумма — 50.4 cM, самый длинный сегмент — 42 cM. Показатель перекрытия (Overlap) — 316,294 снипов.
23andMe дает более плотное перекрытие (+36к снипов), что позволяет системе видеть сегменты чуть длиннее и точнее верифицировать совпадения, из за этого и матчей больше.
3. Анализ в калькуляторах (Eurogenes K13):
Здесь наблюдается обратная зависимость :
Кит FTDNA: использовано 77,978 SNPs.
Кит 23andMe: использовано 58,821 SNPs.
ФТДНА выходит лучше в калькуляторах и имхо показывает точнее
23andMe неплохой инструмент для поиска и работы с сегментами за счет высокого Overlap и плотности данных в базе. FTDNA же более эффективен для работы с калькуляторами этноса (Admixture), так как задействует на 32% больше снипов в расчетах K13.
Короче все компании нужны все компании важны ;D

Оффлайн Mikl1984Автор темы

  • R1b R-BY1823 R-FTA13144
  • Сообщений: 478
  • Страна: ru
  • Рейтинг +134/-0
  • H2a1f4
Re: Качество аутосомного теста для генеалогии
« Ответ #8 : 11 Апреля 2026, 11:42:10 »
Осталось WGS сделать и словить дзэн

Оффлайн B827656

  • Сообщений: 101
  • Страна: us
  • Рейтинг +33/-0
  • Y-ДНК: R-FT289278
  • мтДНК: H1c15
Re: Качество аутосомного теста для генеалогии
« Ответ #9 : 11 Апреля 2026, 11:49:48 »
Осталось WGS сделать и словить дзэн
Погодите, я еще не дождался МайХэритидж и Энсестри ;D
А так в планах есть чуть позже

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.