Тема: auCombiner - Web-приложение для объединения аутосомных наборов односельчан (Прочитано 212 раз)

Daemon2017 · « : 16 Апрель 2024, 20:56:34 »

Привет, коллеги!

Ранее я задавался вопросом

Цитировать

Есть 10 образцов коренных жителей 1 села - хочу создать из них синтетический усредненный набор и залить в Gedmatch, чтобы искать людей, которые могут быть связаны с селом. Возможно ли это и что для этого нужно сделать? Достаточно ли просто взять 10 CSV'шников и для каждой позиции выставить самое частое значение?

https://forum.molgen.org/index.php/topic,15310.msg587471.html#msg587471
и выяснил, что так еще никто не делал и нет сведений о работоспособности такого подхода

Ответ SrKz меня обнадежил

Цитировать

Ну, попробовать вариант с самыми частыми значениями всё равно можно, вдруг что-нибудь да поймается. Только не так, что при 4 AA, 5 AC и 1 CC ставим AA, потому что A больше, а ставим AC

так что я решил попробовать.

Предложен такой алгоритм:
1) берем 5+ наборов чистокровных односельчан (т.е. оба родителя должны быть из одного села - понятно, что жен могли брать со стороны, но это "сторона", как правило, недалеко и сильных возмущений в ~~Силе~~ аутосомах не создает);
2) проходимся по всем 700к аутосомных SNP и смотрим аллели по каждой: AA, TT, CC, GG, AT, AC и т.д.;
3) для каждого SNP выбираем наиболее типичное значение (т.е. моду), а если такового нет (в 9 образцах: 3*AA, 3*CC, 3*AC), то ставим отсутствие прочтения ("--");
4) собираем синтетический образец.

Всё это дело я автоматизировал в Web-приложении:
https://daemon2017.github.io/auCombiner/

Исходники общедоступны:
https://github.com/Daemon2017/auCombiner

Как пользоваться:
1) выгружаем из FTDNA файлы .csv.gz всех интересующих селян
2) распаковываем .csv.gz и получаем .csv
3) все .csv упаковываем в .zip так, чтобы они лежали сразу внутри него

4) на сайте https://daemon2017.github.io/auCombiner/ выбираем этот .zip так, чтобы его имя отображалось после кнопки "Выберите файл"

5) нажимаем кнопку "Combine"
6) сперва будет отправлен запрос на загрузку файла - если этот этап прошел успешно, то появится надпись "Everything is prepared! Waiting..."
7) затем будет отправлен сам файл - появится надпись "File uploaded! Waiting..."

начнется обработка - она займет около 2 минут для 10 наборов
9) если все прошло успешно, то появится надпись "Processed! Waiting..."
10) автоматически начнется загрузка файла combined.csv
11) появится надпись "Success!"
На всё про всё уходит около 3 минут.

Теперь можно загрузить эту синтетику куда-нибудь: в тот же Gedmatch. Я ожидаю, что синтетический набор будет лучше искать людей, происходящих из одного села, т.к. традиционно села это замкнутые общества с выраженным эффектом основателя (у моего села они даже в документе 1628 года названы: Собай, Возжей и Кушей). Возможно, что и этнические калькуляторы на синтетике из 10 образцов будут работать лучше, чем по отдельности на 10 образцах. Но это пока что только мои смелые ожидания

В качестве баловства, сделал синтетику из 5 чистокровных односельчан и из 5 полукровных односельчан: общих SNP много, а вот в сегменты по 700+ SNP они выстраиваются нечасто.

Обратите внимание, что сервис работает только с классическим CSV (COMMA separated value - том с разделителями-запятыми), который используется FTDNA. Другие лаборатории используют кто пробелы, кто табуляции, кто точки с запятой в качестве разделителей - их сервис не разжует. Ну и имена SNP у других лабораторий могут быть другими.

АвторТема: auCombiner - Web-приложение для объединения аутосомных наборов односельчан (Прочитано 212 раз)

Daemon2017

auCombiner - Web-приложение для объединения аутосомных наборов односельчан