АвторТема: auCombiner - Web-приложение для объединения аутосомных наборов односельчан  (Прочитано 478 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Daemon2017Автор темы

  • Сообщений: 2220
  • Страна: ru
  • Рейтинг +1088/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Привет, коллеги!

Ранее я задавался вопросом
Цитировать
Есть 10 образцов коренных жителей 1 села - хочу создать из них синтетический усредненный набор и залить в Gedmatch, чтобы искать людей, которые могут быть связаны с селом. Возможно ли это и что для этого нужно сделать? Достаточно ли просто взять 10 CSV'шников и для каждой позиции выставить самое частое значение?
https://forum.molgen.org/index.php/topic,15310.msg587471.html#msg587471
и выяснил, что так еще никто не делал и нет сведений о работоспособности такого подхода  ;D Ответ SrKz меня обнадежил
Цитировать
Ну, попробовать вариант с самыми частыми значениями всё равно можно, вдруг что-нибудь да поймается. Только не так, что при 4 AA, 5 AC и 1 CC ставим AA, потому что A больше, а ставим AC ::)
так что я решил попробовать.

Предложен такой алгоритм:
1) берем 5+ наборов чистокровных односельчан (т.е. оба родителя должны быть из одного села - понятно, что жен могли брать со стороны, но это "сторона", как правило, недалеко и сильных возмущений в Силе аутосомах не создает);
2) проходимся по всем 700к аутосомных SNP и смотрим аллели по каждой: AA, TT, CC, GG, AT, AC и т.д.;
3) для каждого SNP выбираем наиболее типичное значение (т.е. моду), а если такового нет (в 9 образцах: 3*AA, 3*CC, 3*AC), то ставим отсутствие прочтения ("--");
4) собираем синтетический образец.

Всё это дело я автоматизировал в Web-приложении:
https://daemon2017.github.io/auCombiner/

Исходники общедоступны:
https://github.com/Daemon2017/auCombiner

Как пользоваться:
1) выгружаем из FTDNA файлы .csv.gz всех интересующих селян
2) распаковываем .csv.gz и получаем .csv
3) все .csv упаковываем в .zip так, чтобы они лежали сразу внутри него

4) на сайте https://daemon2017.github.io/auCombiner/ выбираем этот .zip так, чтобы его имя отображалось после кнопки "Выберите файл"

5) нажимаем кнопку "Combine"
6) сперва будет отправлен запрос на загрузку файла - если этот этап прошел успешно, то появится надпись "Everything is prepared!  Waiting..."
7) затем будет отправлен сам файл - появится надпись "File uploaded!  Waiting..."
8) начнется обработка - она займет около 2 минут для 10 наборов
9) если все прошло успешно, то появится надпись "Processed! Waiting..."
10) автоматически начнется загрузка файла combined.csv
11) появится надпись "Success!"
На всё про всё уходит около 3 минут. 

Теперь можно загрузить эту синтетику куда-нибудь: в тот же Gedmatch. Я ожидаю, что синтетический набор будет лучше искать людей, происходящих из одного села, т.к. традиционно села это замкнутые общества с выраженным эффектом основателя (у моего села они даже в документе 1628 года названы: Собай, Возжей и Кушей). Возможно, что и этнические калькуляторы на синтетике из 10 образцов будут работать лучше, чем по отдельности на 10 образцах. Но это пока что только мои смелые ожидания ;D
В качестве баловства, сделал синтетику из 5 чистокровных односельчан и из 5 полукровных односельчан: общих SNP много, а вот в сегменты по 700+ SNP они выстраиваются нечасто.


Обратите внимание, что сервис работает только с классическим CSV (COMMA separated value - том с разделителями-запятыми), который используется FTDNA. Другие лаборатории используют кто пробелы, кто табуляции, кто точки с запятой в качестве разделителей - их сервис не разжует. Ну и имена SNP у других лабораторий могут быть другими.

Оффлайн Daemon2017Автор темы

  • Сообщений: 2220
  • Страна: ru
  • Рейтинг +1088/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Возникла проблема: после загрузки на GM, в половине случаев возникает ошибка в ходе токенизации "Fails HTZ ratio test" (ранее - "Percent HTZ out of range") и ему присваивается флаг "Research", который запрещает вести сравнения One-To-Many.
Т.е. проверять наличие родства с нашим селом можно через One-To-Many, а вот искать людей, происходящих из нашего села - нет  :(

Проверка внедрена в 2020 году для того, чтобы люди не могли загружать синтетические наборы для поиска определенных людей и совпадения с определенными людьми (защита прайваси). Сама проверка заключается в том, что синтетический набор будет иметь другое соотношение heterozygous/homozygous - не как у настоящего генома. Ney P, Ceze L, Kohno T. Genotype extraction and false relative attacks: security risks to third-party genetic genealogy services beyond identity inference. [December 16, 2019];Network and Distributed System Security Symposium (NDSS) (San Diego, US) 2020 https://dnasec.cs.washington.edu/genetic-genealogy/ney_ndss.pdf
Проверка работает вразжопицу и периодически режет даже настоящие наборы, но что поделать.

Примеры:
1) синтетика, запоровшая проверку: -- (76378), AA (102597), CC (141800), TT (102535), GG (141501) из 630075 SNP. Т.е. 564811/630075=89.64% гомозигот, ну или 488433/630075=77.51% гомозигот, если не считать (--) за гомозиготы.
2) синтетика, прошедшая проверку: 37421, 107094, 147179, 107284, 146936. Т.е. 86.64% или 80.7%.
3) живчик: 13094, 108641, 147283, 108709, 147074. Т.е. 83.29% или 81.21%
В общем, главная гомозиготность - это No-Call'ы ;D

Оффлайн Daemon2017Автор темы

  • Сообщений: 2220
  • Страна: ru
  • Рейтинг +1088/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
О, стали блокировать наборы и вешать пометку "Matchy - too many matches"  >:(
Цитировать
Total matches with kit YF1060147 = 715067 = 1.5607974194293E-5 Pct. of all matches in the entire GEDmatch database

Оффлайн Rigar

  • МЖ: U5b1a2, ЖМЖ: U3b1b
  • Сообщений: 39
  • Страна: ru
  • Рейтинг +10/-0
  • Y-ДНК: I-FT16449*
  • мтДНК: C4a1a-a4
О, стали блокировать наборы и вешать пометку "Matchy - too many matches"  >:(

жаль, идея интересная.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.