АвторТема: yImputer - Web-приложение для предсказания STR-маркеров  (Прочитано 826 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Daemon2017Автор темы

  • Сообщений: 1667
  • Страна: ru
  • Рейтинг +763/-17
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Не совсем понятен смысл предсказания Y-111 по Y-67. Какой практический смысл предсказывать дополнительные 44 маркера (111-67=44)? Мне кажется, что предсказание значений этих маркеров само по себе никому не интнресно. Предсказание основано на информации, содержащейся в Y-67 и очевидно, что новой информации об образце на основе предсказания мы не можем получить. Это будет гипотеза, не более. Тогда зачем городить весь этот огород? Предсказывать гаплогруппу и сравнивать образцы можно и на основе  Y67.

Да, от самого по себе наличия дополнительных 44 маркеров никому лучше не становится, т.к. наши современные реалии таковы, что мы или с 99% точностью знаем SNP уже на 67 маркерах, или нам даже 111 не помощник и для определения SNP нужен бигмак  ;D

Так что все так, как сказал Semargl: импутация наш друг только в филогенетическом сравнении с потенциальными родичами с последующим их бигованием.

Оффлайн Daemon2017Автор темы

  • Сообщений: 1667
  • Страна: ru
  • Рейтинг +763/-17
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Если это удастся сделать так, что все что при вашем подходе было черным ящиком, им же и останется, то да - тогда подходы ортогональны. Разная математика и одно биологическое явление. Если же в некий момент вы начнете осознавать что работаете с эволюцией на дереве - тогда нет, речь о разных сторонах математически одного явления. Как-то так.
Удастся: можно сделать подмодуль в пипелине, который будет предсказывать верхнеуровневый SNP по имеющимся STR'ам, а затем подавать его в модель импутации STR'ов, т.е. всё будет выглядеть бесшовно. Классическое конструирование признаков :)

Традиционная модель - в том, что это марковский процесс на дереве. Вы ищете как в результате скоррелированы величины, которые независимо мутируют, подчиняясь матрице переходов. Вся корреляция, которая обнаруживается, связана исключительно с тем что это процесс на дереве, а не произвольно где. Сам выбор куда мутирует какой аллель согласно матрице - не зависит от того какой выбор сделан для другого STR локуса. Корреляции - следствие того что о сравниваемые гаплотипы лежат по одну или другую сторону от некоего ребра дерева. Соответственно одни локусы мутировали при переходе через это ребро, другие - сохранили свое аллельное состояние. Локусы более или менее "походят" друг на друга по отношению к тому или иному ребру дерева. Здесь есть еще одно скрытое предположение - как скоррелированы скорости мутаций одного и того же локуса в разных частях дерева. Если дозволена сильная дисперсия скорости, будет одна картина, не дозволена - другая. То есть помимо базовой марковской эволюции, имеем еще один признак чисто филогенетической природы: насколько отличаются части дерева по способности мутировать. Признать сильное различие было бы биологической ересью. Но поскольку выбор маркеров не обязан быть большим и представительным, на практике различие может обнаруживаться.

по одной единственной причине: это происходит на дереве
если бы все признаки мутировали слишком быстро, филогенетика не могла бы найти ни одной нетривиальной топологии. Тогда можно говорить об отсутствии корреляции эволюции разных признаков. Но в реальности мы имеем топологию, дерево - это по сути 1-многообразие в очень многомерном пространстве признаков. Каждое ребро дерева делит и аллели каждого признака надвое (если нет гомоплазии то строго как бипартиция). Вы ловите сигнал, полное описание которого - топология дерева и ничего более.

Это да, бесспорно!

Оффлайн Valery

  • Сообщений: 9012
  • Страна: 00
  • Рейтинг +1120/-7
  • Ultimate Matriarchy
Я как раз очень оптимистично смотрю на возможности такого предсказания и обеими лапами "за" такой софт. Единственный кмк случай где он бессилен - это глубокие ветви для которых вообще не типирован некий STR. Полная свобода выбора. Тут одинаково бессильны статистика/регрессия и филогенетика: почти равновероятно все что угодно. То есть я бы не давал в общем случае (когда нет дерева) больше очков тому или иному методу. Если же дерево есть, и известные значени аллелей искомого STR известны более-менее равномерно по всем частям дерева, все ветви помалу протипировали на 111, то все-таки более целенаправлен филогенетический поиск. Тк у него на входе больше априорного: есть дерево.

Оффлайн Valery

  • Сообщений: 9012
  • Страна: 00
  • Рейтинг +1120/-7
  • Ultimate Matriarchy
Единственный кмк случай где он бессилен - это глубокие ветви для которых вообще не типирован некий STR.

гадалка тут вполне конкурент степени в статистике, если речь об одном маркере
если о многих - степень таки лучше, тк гадалка вряд ли экспромтом изобразит нужное распределение  ;D
или тогда уж какая механика с известной возможностью генерить нужное (сложнее монетки)

Оффлайн Daemon2017Автор темы

  • Сообщений: 1667
  • Страна: ru
  • Рейтинг +763/-17
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Открыл для себя, что и в ЛК YFull, и в ЛК FTDNA есть кнопка загрузки CSV-файла. Так что я увеличил количество ручек, выставляемых сервисом, до 4:
1) принимает JSON;
2) принимает CSV (все палиндромные маркеры именованы a/b/c/d и находятся в отдельных столбцах);
3) принимает CSV от YFull (все палиндромные маркеры именованы 1/2/3/4 и находятся в отдельных столбцах);
4) принимает CSV от FTDNA, ну или копипасту из FTDNA'шного проекта (все палиндромные маркеры находятся в одном столбце и отделены дефисами).

1 и 2 взаимообратимы с помощью https://csvjson.com/

Обновил коллекции Postman'а и доку на каждую из ручек (пипок):
https://github.com/Daemon2017/yImputer/blob/master/README.md

Теперь можно ставить импутацию STR'ов из WGS на поток ;D

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.