АвторТема: auCombiner - Web-приложение для объединения аутосомных наборов односельчан  (Прочитано 212 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Daemon2017Автор темы

  • Сообщений: 2208
  • Страна: ru
  • Рейтинг +1078/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Привет, коллеги!

Ранее я задавался вопросом
Цитировать
Есть 10 образцов коренных жителей 1 села - хочу создать из них синтетический усредненный набор и залить в Gedmatch, чтобы искать людей, которые могут быть связаны с селом. Возможно ли это и что для этого нужно сделать? Достаточно ли просто взять 10 CSV'шников и для каждой позиции выставить самое частое значение?
https://forum.molgen.org/index.php/topic,15310.msg587471.html#msg587471
и выяснил, что так еще никто не делал и нет сведений о работоспособности такого подхода  ;D Ответ SrKz меня обнадежил
Цитировать
Ну, попробовать вариант с самыми частыми значениями всё равно можно, вдруг что-нибудь да поймается. Только не так, что при 4 AA, 5 AC и 1 CC ставим AA, потому что A больше, а ставим AC ::)
так что я решил попробовать.

Предложен такой алгоритм:
1) берем 5+ наборов чистокровных односельчан (т.е. оба родителя должны быть из одного села - понятно, что жен могли брать со стороны, но это "сторона", как правило, недалеко и сильных возмущений в Силе аутосомах не создает);
2) проходимся по всем 700к аутосомных SNP и смотрим аллели по каждой: AA, TT, CC, GG, AT, AC и т.д.;
3) для каждого SNP выбираем наиболее типичное значение (т.е. моду), а если такового нет (в 9 образцах: 3*AA, 3*CC, 3*AC), то ставим отсутствие прочтения ("--");
4) собираем синтетический образец.

Всё это дело я автоматизировал в Web-приложении:
https://daemon2017.github.io/auCombiner/

Исходники общедоступны:
https://github.com/Daemon2017/auCombiner

Как пользоваться:
1) выгружаем из FTDNA файлы .csv.gz всех интересующих селян
2) распаковываем .csv.gz и получаем .csv
3) все .csv упаковываем в .zip так, чтобы они лежали сразу внутри него

4) на сайте https://daemon2017.github.io/auCombiner/ выбираем этот .zip так, чтобы его имя отображалось после кнопки "Выберите файл"

5) нажимаем кнопку "Combine"
6) сперва будет отправлен запрос на загрузку файла - если этот этап прошел успешно, то появится надпись "Everything is prepared!  Waiting..."
7) затем будет отправлен сам файл - появится надпись "File uploaded!  Waiting..."
8) начнется обработка - она займет около 2 минут для 10 наборов
9) если все прошло успешно, то появится надпись "Processed! Waiting..."
10) автоматически начнется загрузка файла combined.csv
11) появится надпись "Success!"
На всё про всё уходит около 3 минут. 

Теперь можно загрузить эту синтетику куда-нибудь: в тот же Gedmatch. Я ожидаю, что синтетический набор будет лучше искать людей, происходящих из одного села, т.к. традиционно села это замкнутые общества с выраженным эффектом основателя (у моего села они даже в документе 1628 года названы: Собай, Возжей и Кушей). Возможно, что и этнические калькуляторы на синтетике из 10 образцов будут работать лучше, чем по отдельности на 10 образцах. Но это пока что только мои смелые ожидания ;D
В качестве баловства, сделал синтетику из 5 чистокровных односельчан и из 5 полукровных односельчан: общих SNP много, а вот в сегменты по 700+ SNP они выстраиваются нечасто.


Обратите внимание, что сервис работает только с классическим CSV (COMMA separated value - том с разделителями-запятыми), который используется FTDNA. Другие лаборатории используют кто пробелы, кто табуляции, кто точки с запятой в качестве разделителей - их сервис не разжует. Ну и имена SNP у других лабораторий могут быть другими.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.