АвторТема: yImputer - Web-приложение для предсказания STR-маркеров  (Прочитано 3609 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Daemon2017Автор темы

  • Сообщений: 2239
  • Страна: ru
  • Рейтинг +1105/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Не совсем понятен смысл предсказания Y-111 по Y-67. Какой практический смысл предсказывать дополнительные 44 маркера (111-67=44)? Мне кажется, что предсказание значений этих маркеров само по себе никому не интнресно. Предсказание основано на информации, содержащейся в Y-67 и очевидно, что новой информации об образце на основе предсказания мы не можем получить. Это будет гипотеза, не более. Тогда зачем городить весь этот огород? Предсказывать гаплогруппу и сравнивать образцы можно и на основе  Y67.

Да, от самого по себе наличия дополнительных 44 маркеров никому лучше не становится, т.к. наши современные реалии таковы, что мы или с 99% точностью знаем SNP уже на 67 маркерах, или нам даже 111 не помощник и для определения SNP нужен бигмак  ;D

Так что все так, как сказал Semargl: импутация наш друг только в филогенетическом сравнении с потенциальными родичами с последующим их бигованием.

Оффлайн Daemon2017Автор темы

  • Сообщений: 2239
  • Страна: ru
  • Рейтинг +1105/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Если это удастся сделать так, что все что при вашем подходе было черным ящиком, им же и останется, то да - тогда подходы ортогональны. Разная математика и одно биологическое явление. Если же в некий момент вы начнете осознавать что работаете с эволюцией на дереве - тогда нет, речь о разных сторонах математически одного явления. Как-то так.
Удастся: можно сделать подмодуль в пипелине, который будет предсказывать верхнеуровневый SNP по имеющимся STR'ам, а затем подавать его в модель импутации STR'ов, т.е. всё будет выглядеть бесшовно. Классическое конструирование признаков :)

Традиционная модель - в том, что это марковский процесс на дереве. Вы ищете как в результате скоррелированы величины, которые независимо мутируют, подчиняясь матрице переходов. Вся корреляция, которая обнаруживается, связана исключительно с тем что это процесс на дереве, а не произвольно где. Сам выбор куда мутирует какой аллель согласно матрице - не зависит от того какой выбор сделан для другого STR локуса. Корреляции - следствие того что о сравниваемые гаплотипы лежат по одну или другую сторону от некоего ребра дерева. Соответственно одни локусы мутировали при переходе через это ребро, другие - сохранили свое аллельное состояние. Локусы более или менее "походят" друг на друга по отношению к тому или иному ребру дерева. Здесь есть еще одно скрытое предположение - как скоррелированы скорости мутаций одного и того же локуса в разных частях дерева. Если дозволена сильная дисперсия скорости, будет одна картина, не дозволена - другая. То есть помимо базовой марковской эволюции, имеем еще один признак чисто филогенетической природы: насколько отличаются части дерева по способности мутировать. Признать сильное различие было бы биологической ересью. Но поскольку выбор маркеров не обязан быть большим и представительным, на практике различие может обнаруживаться.

по одной единственной причине: это происходит на дереве
если бы все признаки мутировали слишком быстро, филогенетика не могла бы найти ни одной нетривиальной топологии. Тогда можно говорить об отсутствии корреляции эволюции разных признаков. Но в реальности мы имеем топологию, дерево - это по сути 1-многообразие в очень многомерном пространстве признаков. Каждое ребро дерева делит и аллели каждого признака надвое (если нет гомоплазии то строго как бипартиция). Вы ловите сигнал, полное описание которого - топология дерева и ничего более.

Это да, бесспорно!

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1382/-7
  • Ultimate Matriarchy
Я как раз очень оптимистично смотрю на возможности такого предсказания и обеими лапами "за" такой софт. Единственный кмк случай где он бессилен - это глубокие ветви для которых вообще не типирован некий STR. Полная свобода выбора. Тут одинаково бессильны статистика/регрессия и филогенетика: почти равновероятно все что угодно. То есть я бы не давал в общем случае (когда нет дерева) больше очков тому или иному методу. Если же дерево есть, и известные значени аллелей искомого STR известны более-менее равномерно по всем частям дерева, все ветви помалу протипировали на 111, то все-таки более целенаправлен филогенетический поиск. Тк у него на входе больше априорного: есть дерево.

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1382/-7
  • Ultimate Matriarchy
Единственный кмк случай где он бессилен - это глубокие ветви для которых вообще не типирован некий STR.

гадалка тут вполне конкурент степени в статистике, если речь об одном маркере
если о многих - степень таки лучше, тк гадалка вряд ли экспромтом изобразит нужное распределение  ;D
или тогда уж какая механика с известной возможностью генерить нужное (сложнее монетки)

Оффлайн Daemon2017Автор темы

  • Сообщений: 2239
  • Страна: ru
  • Рейтинг +1105/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Открыл для себя, что и в ЛК YFull, и в ЛК FTDNA есть кнопка загрузки CSV-файла. Так что я увеличил количество ручек, выставляемых сервисом, до 4:
1) принимает JSON;
2) принимает CSV (все палиндромные маркеры именованы a/b/c/d и находятся в отдельных столбцах);
3) принимает CSV от YFull (все палиндромные маркеры именованы 1/2/3/4 и находятся в отдельных столбцах);
4) принимает CSV от FTDNA, ну или копипасту из FTDNA'шного проекта (все палиндромные маркеры находятся в одном столбце и отделены дефисами).

1 и 2 взаимообратимы с помощью https://csvjson.com/

Обновил коллекции Postman'а и доку на каждую из ручек (пипок):
https://github.com/Daemon2017/yImputer/blob/master/README.md

Теперь можно ставить импутацию STR'ов из WGS на поток ;D

Оффлайн Daemon2017Автор темы

  • Сообщений: 2239
  • Страна: ru
  • Рейтинг +1105/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Прошелся по проектам FTDNA и обратил внимание на то, что соотношение количества BigY и STR-тестов 12/37/67/111 почти не изменилось за прошедшие 5 лет - основной массе по-прежнему интереснее охват вширь, а не вглубь: полагаю, что в странах, где генеалогия популярнее, чем в СНГ, достаточно легко найти совпаденца по 67 STR, списаться с ним, а затем найти точку пересечения по документам, не прибегая к дорогим тестам.
В то же время, количество лабораторий, делающих WGS, продолжает расти (при заказе интерпретации YFull, доступен выбор из 12 шт.), как и количество образцов в YFull, загруженных из таких лабораторий. Например, моя веточка R-FT92022 это 30 образцов FTDNA, 10 образцов Nebula, 4 образца Dante, 0 образцов YSEQ. Соседняя R-YP343 имеет соотношение 61/17/4/3, а R-CTS3402 - 52/20/8/5. Т.е. доля FTDNA местами снижается до 60%.

Это натолкнуло меня на мысль, что YFull не только является стандартом де-факто в плане топологии Y-SNP, но и становится связующим центром для STR, полученных со всех этих лабораторий. А вот STR-формат YFull успехом не пользуется - инструменты сообщества, вроде того же Nevgen и MyMcGee, его не поддерживают. Соответственно, нужен инструмент, который:
1) сможет превращать неполную панель STR, извлеченных из WGS, в полную 111-маркерную;
2) сможет приводить ее в формат FTDNA, являющийся стандартом де-факто.
В таком случае, человек, сделавший себе WGS и загрузившийся в YFull, не будет нуждаться в дублирующем STR-тесте от FTDNA для того, чтобы сравниться с образцами из открытых проектов FTDNA и построить STR-древо. Недоступны будут только образцы из приватных проектов и образцы людей, не вступивших в проекты.

По этой причине, я очистил yImputer от всего лишнего, сконцентрировавшись на решении этих проблем. Результат разместил в Я.Облаке и прикрутил суровую веб-морду: https://daemon2017.github.io/yImputer/

Как пользоваться:
Открываем проект и копируем интересующие STRы вместе с "x" на месте отсутствующих значений и табуляциями в качестве разделителя:

Цитировать
13.c   25   16   10   12   13   12   x   10   12   11   28   15   9   10   11   11   24   14   20   33   13   15   16   16   11   10   19   23   15   16   18   20   x   x   13   11   11   8   17   17   8   12   10   8   9   10   12   20   22   15   10   12   12   14   8   13   23   21   12   12   11   13   11   11   12   13   32   15   9   15   x   25   x   19   x   12   12   x   10   x   12   11   10   x   11   31   12   13   24   13   10   10   18   15   19   11   22   14   14   15   24   12   23   19   10   15   17   9   11   11
Вставляем в верхнее поле сайта и жмем Impute:

Через 5-10 секунд получаем 111-маркерный гаплотип в формате FTDNA, который можно использовать в MyMcGee, yMurmur и пр. инструментах для STR-анализа:
Цитировать
13   25   16   10   12-13   12   13   10   12   11   28   15   9-10   11   11   24   14   20   33   13-15-16-16   11   10   19-23   15   16   18   20   33-36   13   11   11   8   17-17   8   12   10   8   9   10   12   20-22   15   10   12   12   14   8   13   23   21   12   12   11   13   11   11   12   13   32   15   9   15   12   25   27   19   12   12   12   12   10   9   12   11   10   11   11   31   12   13   24   13   10   10   18   15   19   11   22   14   14   15   24   12   23   19   10   15   17   9   11   11
Для сравнения, вот STR для этого же образца, полученные тестом Y111 от FTDNA:
Цитировать
13   25   16   10   12-13   12   13   10   12   11   28   15   9-10   11   11   24   14   20   33   13-15-16-16   11   10   19-23   15   16   18   20   33-36   13   11   11   8   17-17   8   12   10   8   9   10   12   20-22   15   10   12   12   14   8   13   23   21   12   12   11   13   11   11   12   13   32   15   9   15   12   25   27   19   12   12   12   12   10   9   12   11   10   11   11   31   12   13   24   13   9   10   18   15   19   11   22   14   14   15   24   12   23   19   10   15   17   9   11   11
Из 9 выпавших, отличается 1 маркер на 1 шаг.

Учитывая то, что YFull дает точные сведения об SNP, можно использовать еще и их для более точного определения STR'ов.
« Последнее редактирование: 29 Январь 2024, 20:04:45 от Daemon2017 »

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.