Тема: Утилита для создания усреднённого генома (Прочитано 6309 раз)

Mich Glitch · « : 26 Октябрь 2015, 20:26:02 »

В качестве вступления.

Думаю, все прекрасно понимают, что в качестве генеалогического инструмента ни один из этнокалькуляторов не годится. И дело тут не столько в выборе используемых алгоритмов и их реализации, сколько в самом случайном характере наследования, разрешении существующих чипов, инструментальных ошибках, скудости сравнительной базы.

Вышесказанное не означает вовсе, что сам по себе инструмент является бесполезным и неработающим. Всё дело в его правильном использовании.

Правильное же использование, на мой взгляд, заключается в сравнении групп - анализируемых с референтными.

Mich Glitch · « **Ответ #1 :** 26 Октябрь 2015, 20:28:12 »

В связи с вышесказанным, назрела нужда в создании утилиты по генерерированию усреднённых геномов.
То есть, загружаем мы, скажем, два, или более геномов, а на выходе получаем некий усреднённый для это группы геном.

Mich Glitch · « **Ответ #2 :** 26 Октябрь 2015, 20:31:11 »

Только представьте себе, взяли мы и ввели геномы родных братьев-сестёр. На выходе получили геном с преобладающими значениями. При этом значительно сократилось количество ноу-коллов.

А если обработать не близких родственников из одной семьи, а жителей одного села? Допустим, с десяток и более.
Вау! Тогда уже можно всерьёз порассуждать о путях миграций.

Mich Glitch · « **Ответ #3 :** 26 Октябрь 2015, 20:34:57 »

Как представляется работа утилиты?

Имеем два основных этапа:

1. Анализ.
Загрузили два, или более гаплотипа и по каждой из позиции на каждой из хромосом имеем возможно посмотреть распределение значений.

2. Генерирование выходного генома.
Задаём пороговую величину второго по частоте значения и получаем выходной файл. Файл, который потом можно будет использовать для какого угодно калькулятора, как и стандартные геномы.

Mich Glitch · « **Ответ #4 :** 26 Октябрь 2015, 20:40:35 »

Коротко поясню второй пункт. Для простоты всё даю без ноу-коллов. Т.е., полагаем, что значения маркеров во всех сравниваемых гаплотипах прочитаны.

Допустим, сравниваем только два гаплотипа и имеем по значению какого-то маркера СС у первого и ТТ у второго тестированных. Ясен перчик, что в этом случае в сгенерированном файле получим среднее значение СТ.

Нет закавык, если у обоих СС, или ТТ, или СТ. Эти же значения будут и в выходном файле.

А что делать, если у одного СС, а у другого СТ? Или, чтобы было нагляднее, рассмотрим три сравниваемых генома со значениями СС, СС, СТ?
Для этого и нужна возможность ввести порог частоты второго по распространённости значения. Скажем, 25% и выше. Или 30. Или 40.

Mich Glitch · « **Ответ #5 :** 26 Октябрь 2015, 20:43:09 »

Можно сделать утилиту в виде серверного приложения. Но если отправлять туда с двадцать и более геномов - это будет 150 МБ и выше. В принципе не очень много. Да, даже и сотня геномов - это меньше Гига.

Ну, а можно сделать в виде скрипта, работающего на локальных машинах. Либо в виде загружаемого приложения.

Mich Glitch · « **Ответ #6 :** 26 Октябрь 2015, 20:47:07 »

Может кто из наших умельцев сделает? Программка то выглядит не очень сложной для тех, кто умеет?

Ну, а не найдётся русскоговорящих спецов, придётся идти на поклон к Феликсу Всемогущему. Ему слава и почёт тогда, если что.

Mich Glitch · « **Ответ #7 :** 27 Октябрь 2015, 10:51:52 »

Ага. Кое кто заинтересовался.

Вопросы были заданы в личку - отвечу тут.

Цитировать

ну насчет то что вы тут предлагаете, вроде с одной стороны не сложно, но что за формат файлов? Ну если сравнивать оба должны быть ФТДНА например к примеру? Если же разные будут ерунда получится?

На самом деле, имеем два формата.

1. 23эндМи:

Цитировать

# This data file generated by 23andMe at: Wed Nov 27 22:09:19 2013
#
# Below is a text version of your data. Fields are TAB-separated
# Each line corresponds to a single SNP. For each SNP, we provide its identifier
# (an rsid or an internal id), its location on the reference human genome, and the
# genotype call oriented with respect to the plus strand on the human reference sequence.
# We are using reference human assembly build 37 (also known as Annotation Release 104).
# Note that it is possible that data downloaded at different times may be different due to ongoing
# improvements in our ability to call genotypes. More information about these changes can be found at:
# https://www.23andme.com/you/download/revisions/
#
# More information on reference human assembly build 37 (aka Annotation Release 104):
# http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=9606
#
# rsid   chromosome   position   genotype
rs4477212   1   82154   AA
rs3094315   1   752566   AA
rs3131972   1   752721   GG
rs12562034   1   768448   GG
rs12124819   1   776546   AA
rs11240777   1   798959   GG
rs6681049   1   800007   CC
rs4970383   1   838555   AA
rs4475691   1   846808   TT
...

2. ФТДНА:

Цитировать

RSID,CHROMOSOME,POSITION,RESULT
"rs3094315","1","752566","AA"
"rs3131972","1","752721","GG"
"rs12562034","1","768448","GG"
"rs12124819","1","776546","AA"
"rs11240777","1","798959","GG"
"rs6681049","1","800007","CC"
"rs4970383","1","838555","AA"
"rs4475691","1","846808","TT"
"rs7537756","1","854250","GG"
"rs13302982","1","861808","GG"
"rs1110052","1","873558","GG"
"rs2272756","1","882033","AA"
"rs17160698","1","887162","TT"
"rs3748597","1","888659","CC"
"rs13303106","1","891945","AA"
"rs28415373","1","893981","CC"
"rs13303010","1","894573","AA"
"rs6696281","1","903104","CC"
"rs28391282","1","904165","GG"
"rs2340592","1","910935","GG"
"rs13303118","1","918384","TG"
"rs2341354","1","918573","AG"
"rs6665000","1","924898","AA"
"rs2341362","1","927309","CC"
"rs9777703","1","928836","TT"
"rs1891910","1","932457","GG"
...

Как видим, всё дело только в разделителях.
Берём хромосому, затем позицию, затем обрабатываем значения.

Mich Glitch · « **Ответ #8 :** 27 Октябрь 2015, 11:08:55 »

Цитировать

И не совсем опять же понятна теория.

Теорию описал выше.
Дам ещё примеры.
Допустим, генереруем выходной файл на основе двух геномов.
Допустим, один геном от 23эндМи, а другой от ФТДНА.
Допустим, задали порог частоты для второго значения 25%.
Для этих трёх допущений возможны варианты.
1. Какая-то позиция на какой-то хромосоме присутствует в одном входном файле (на используемом чипе), но отсутствует в другом. Записываем существующие значения.
2. Позиция присутствует в обоих геномах, но в одном по ней ноу-колл. Записываем существующие значения.
3. Допустим имеем по какой-то позиции АА и АС. Т.е. наиболее распространённое значение А имеет частоту 75%. Второе по распространённости значение С имеет частоту 25%. Т.е. проходит порог. Записываем АС.
4. АА и СТ. Не понятно что писать для второго значения С, или Т. Возможны варианты. Либо АА, Либо А- (частичный ноу-колл).
5. АС и GT. Записываем ноу-колл - -. Точнее, просто опускаем позицию.

Это так, в общих чертах.

Mich Glitch · « **Ответ #9 :** 27 Октябрь 2015, 11:10:32 »

Помимо порога частоты второго по распространённости значения, хорошо бы иметь возможность выбора формата выходного файла. Либо ФТДНА, либо 23эндМи.

Mich Glitch · « **Ответ #10 :** 27 Октябрь 2015, 19:48:16 »

Задача упрощается тем, что обычно по позиции, если не считать ноу-коллы и инделы имеем всего три варианта значений. Типа, СС, СТ, ТТ.

Mich Glitch · « **Ответ #11 :** 27 Октябрь 2015, 19:52:13 »

Хорошо бы ещё иметь статистику. Типа, такая-то длина первого (второго, третьего, четвертого...) исходного файла; такая-то длина выходного файла. Столько-то позиций с совпадающими значениями
Это сразу позволит оценить степень гомогенности.для всех входных файлов. (Без учёта ноу-коллов, или с различными вариантами учёта ноу-коллов.)
Опять же, меняем порог второго по частоте значения в позициях и смотрим, как это отражается на длине выходного генома.

Mich Glitch · « **Ответ #12 :** 28 Октябрь 2015, 19:03:03 »

Какова основная идея утилиты?
Это то же самое, что например получить модальный гаплотип для выборки Y-хромосомных гаплотипов.

Mich Glitch · « **Ответ #13 :** 28 Октябрь 2015, 19:07:05 »

Понятнее всего это посмотреть на примере аутосомных СТР маркеров.
Допустим имеем такое вот распределение:

Mich Glitch · « **Ответ #14 :** 28 Октябрь 2015, 19:09:36 »

Тогда, например, по первому маркеру D8S1179 модальное значение равно 13. Потому как наиболее частое. Встречается в одной трети случаев. 0.33. 33%, стало быть.

АвторТема: Утилита для создания усреднённого генома (Прочитано 6309 раз)

Mich Glitch

Утилита для создания усреднённого генома

Mich Glitch

Re: Утилита для создания усреднённого генома

Mich Glitch

Re: Утилита для создания усреднённого генома

Mich Glitch

Re: Утилита для создания усреднённого генома

Mich Glitch

Re: Утилита для создания усреднённого генома

Mich Glitch

Re: Утилита для создания усреднённого генома

Mich Glitch

Re: Утилита для создания усреднённого генома

Mich Glitch

Re: Утилита для создания усреднённого генома

Mich Glitch

Re: Утилита для создания усреднённого генома

Mich Glitch

Re: Утилита для создания усреднённого генома

Mich Glitch

Re: Утилита для создания усреднённого генома

Mich Glitch

Re: Утилита для создания усреднённого генома

Mich Glitch

Re: Утилита для создания усреднённого генома

Mich Glitch

Re: Утилита для создания усреднённого генома

Mich Glitch

Re: Утилита для создания усреднённого генома