Тема: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК (Прочитано 166227 раз)

Semargl · « **Ответ #135 :** 17 Ноябрь 2011, 11:37:35 »

Цитата: Тунец от 16 Ноябрь 2011, 13:44:05

Цитата: Шад от 12 Ноябрь 2011, 20:42:52
Цитата: Тунец от 12 Ноябрь 2011, 20:16:44
Все будеть номально - завтра сделаю возможность выборок из базы, по вашим условиям.
Те будет возможен запрос: "показать все DYS388 = 10 и DYS666 = 23"

Это было бы здорово... Так как текущая кластеризация многих гаплогрупп строится не только на открытых снипах, но и на предполагаемых по филогении и характерным значениям STR-маркеров. А для этих целей такая выборка была бы очень полезна.
С небольшой задержкой
Просьба оценить "запросы к БД". Интерфейс не сложный, разобраться легко.

Ошибки указанные ув. Оводом - исправил. Какие еще недостатки, в этой функции, вы замечаете? Или можно переходить к написанию другого функционала?

Цитировать

Приветствуется помощь в написании краткой инструкции пользователя для этой функции.
Хотелось бы видеть на языках: английском, немецком, русском, польском, финском.
"Поможите кто чем может"

Просьба остается в силе

Semargl · « **Ответ #136 :** 17 Ноябрь 2011, 11:52:00 »

Начал писать, нечто подобное, функции поиска матчей в YSearch.
Затык на алгоритмах Левенштейна, и Хэмминга

Решил реализовать с помощью k-dimensional tree.
Нужен совет наших уважаемых математиков, правилен ли выбор алгоритма для нахождения подобных последовательностей строк? Естес-но приветствуется минимализация расхода вычислительных ресурсов.

Пока вышло сыровато, но прогресс есть

Заценить можно из меню поиска
Когда нашли нужный гаплотип, справа увидим ссылочку "Demo!!!", жмем, и получаем 100 самых близких, к заданному, гаплотипа.
Осталась одна проблемка, отсутствующий, в сравниваемом гаплотипе, маркер, дефолтно считается _совпавшим_, поэтому в самые близкие матчи вылазят короткие гаплотипы. Что с этим делать, подумаю чуток после, сейчас голова лопается )))

ПС Кому лень искать гаплотипы через поиск - прямая ссылка на матчи для 211347-Kotwicki

Valery · « **Ответ #137 :** 17 Ноябрь 2011, 12:17:14 »

Цитата: Тунец от 17 Ноябрь 2011, 11:52:00

отсутствующий, в сравниваемом гаплотипе, маркер, дефолтно считается _совпавшим_, поэтому в самые близкие матчи вылазят короткие гаплотипы

Нормально. Кстати а как отсутствующие признаки у Вас реализуются в k-d?

Semargl · « **Ответ #138 :** 17 Ноябрь 2011, 12:40:04 »

Цитата: Valery от 17 Ноябрь 2011, 12:17:14

Цитата: Тунец от 17 Ноябрь 2011, 11:52:00
отсутствующий, в сравниваемом гаплотипе, маркер, дефолтно считается _совпавшим_, поэтому в самые близкие матчи вылазят короткие гаплотипы

Нормально. Кстати а как отсутствующие признаки у Вас реализуются в k-d?

Стыдно сказать

_пока_ реализуются, таким образом:
при отсутствии нужного признака, вместо него подставляется признак из гаплотипа, который взят для сравнения.
Это решило проблему больших дистанций между родственными гаплотипами, при отсутствии у одного из них нескольких значений маркёров. Но возникла более мелкая проблема (с короткими гаплотипами), которую все равно придется решить.
Думаю сделать сортировку по кол-ву сравниваемых маркёров: 111/67, 111/37, 111/12 и тд. То есть убрать "в хвост" все хороткие гаплотипы.

А как вообще можно реализовать отсутствующие признаки в k-d? Я думаю никак.

Valery · « **Ответ #139 :** 17 Ноябрь 2011, 12:51:08 »

Ну скажем указывать среднее значение по локусу. Наверное так. Либо держать сразу несколько деревьев - по 12, 17, 37, 67 и 111

При этом могут быть гаплотипы у которых нет всего 1-2 локусов либо их значения явно ошибочны. Такие можно либо заменить средними либо восстановить филогенетически. Для 67 последнее возможно легко а вот если локусов мало то наверное можно только среднее пихать.

Semargl · « **Ответ #140 :** 17 Ноябрь 2011, 12:59:22 »

Цитата: Valery от 17 Ноябрь 2011, 12:51:08

Ну скажем указывать среднее значение по локусу. Наверное так. Либо держать сразу несколько деревьев - по 12, 17, 37, 67 и 111

При этом могут быть гаплотипы у которых нет всего 1-2 локусов либо их значения явно ошибочны. Такие можно либо заменить средними либо восстановить филогенетически. Для 67 последнее возможно легко а вот если локусов мало то наверное можно только среднее пихать.

Нагрузка возрастет в разы =)

Цитировать

Такие можно либо заменить средними либо восстановить филогенетически

Это будет уже из области догадок)
Я думаю "выбросить" все короткие гаплотипы, то есть в сравнении будут принимать участи только 67м и 111м

Хотя может посмотрю в сторону других алгоритмов, уж больно красив алгоритм вычисления расстояния Левенштейна. Но боюсь за ресурсы.
Хотя, именно этот алгоритм, применяется в биоинформатике для сравнения генов, хромосом и белков.

Valery · « **Ответ #141 :** 17 Ноябрь 2011, 13:20:36 »

Цитата: Тунец от 17 Ноябрь 2011, 12:59:22

Это будет уже из области догадок)

так юзеру Вы отдадите данные как есть с "?", используя восстановленные значения только для поиска. Хотя согласен, что это все равно верный путь запутаться во лжи

Semargl · « **Ответ #142 :** 17 Ноябрь 2011, 20:05:49 »

Цитировать

Думаю сделать сортировку по кол-ву сравниваемых маркёров. То есть убрать "в хвост" все хороткие гаплотипы.

Немного подправил, уже красивше
Добавил, для отличающихся маркёров, маркировку цветом. Чем больше шаг, тем темнее цвет.

Semargl · « **Ответ #143 :** 20 Ноябрь 2011, 21:32:39 »

Изменил алгоритм поиска ближайших гаплотипов. Раньше, алгоритм считал, что 10 шаговая мутация на 9 маркерах, более близкая, чем 11 шаговая, но на пяти маркерах.
Решил заново реализовать таблицу галотипов, входящих в бранч, но уже с автоматическим определением минимального, модального и максимального значения каждого маркера. Отличие от модала, в ту или иную сторону, будет отличаться по цвету.
Оценить можно со страницы списка бранчей, выбрав напротив нужного, ссылку: "Таблица гаплотипов in color"
Прямая ссылка на таблицу по "Сарматам".
ПС Просьба, пока не публиковать эти ссылки у "зарубежников". Фича пока сырая, и требует значительной доработки.
ППС Как всегда, отзывы и оценки, приветствуются.

Овод · « **Ответ #144 :** 20 Ноябрь 2011, 21:58:12 »

Цитата: Тунец от 20 Ноябрь 2011, 21:32:39

Изменил алгоритм поиска ближайших гаплотипов. Раньше, алгоритм считал, что 10 шаговая мутация на 9 маркерах, более близкая, чем 11 шаговая, но на пяти маркерах.

Это очень тонкий вопрос. Существует три критерия генетической дистанции: помаркерный, поаллельный и квадратичный (в котором разницы в аллелях возводятся квадрат).

Первый работает лучше всего на слабо мутированных гаплотипах: понятно, что если, скажем, на 67 маркерах мы видим разницу только в одном маркере, но на 3 аллелях, то это, скорее всего, одна многошаговая мутация.

Второй - на средних дистанциях (примерно до различия в 20 маркерах из 67). Обычно на таких дистанциях линейность сохраняется ещё хорошо.

И, наконец, на сильно мутированных (свыше трети маркеров) уже имеет смысл оценивать возраст квадратичным методом. Хотя дисперсия оценки при этом будет зашкаливать. Линейный метод в этом случае даст более стабильную, но сильно смещенную в минус оценку возраста.

Так что проводить сортировну по среднему (второму) методу вполне целесообразно. Но при интерпретации стоит учитывать вышесказанное.

NMT · « **Ответ #145 :** 20 Ноябрь 2011, 22:09:42 »

мысль Неспеца, а может результат выдавать сразу в трех варинтах (3 разные "кнопки" с указанием методов), люди сравнят, метод сходимости при разных вариантах обработки данных рулит, а вообще +еще один, четвертый результат как "сложение" этих 3 разных методов...
а?

Semargl · « **Ответ #146 :** 20 Ноябрь 2011, 22:22:44 »

Цитата: Овод от 20 Ноябрь 2011, 21:58:12

Цитата: Тунец от 20 Ноябрь 2011, 21:32:39
Изменил алгоритм поиска ближайших гаплотипов. Раньше, алгоритм считал, что 10 шаговая мутация на 9 маркерах, более близкая, чем 11 шаговая, но на пяти маркерах.

Это очень тонкий вопрос. Существует три критерия генетической дистанции: помаркерный, поаллельный и квадратичный (в котором разницы в аллелях возводятся квадрат).

Первый работает лучше всего на слабо мутированных гаплотипах: понятно, что если, скажем, на 67 маркерах мы видим разницу только в одном маркере, но на 3 аллелях, то это, скорее всего, одна многошаговая мутация.

Второй - на средних дистанциях (примерно до различия в 20 маркерах из 67). Обычно на таких дистанциях линейность сохраняется ещё хорошо.

И, наконец, на сильно мутированных (свыше трети маркеров) уже имеет смысл оценивать возраст квадратичным методом. Хотя дисперсия оценки при этом будет зашкаливать. Линейный метод в этом случае даст более стабильную, но сильно смещенную в минус оценку возраста.

Так что проводить сортировну по среднему (второму) методу вполне целесообразно. Но при интерпретации стоит учитывать вышесказанное.

Спасибо за совет. Прошу оценить оба варианта поиска. Как и прежде, на странице поиска, находим нужный гаплотип. Рядом с ним две ссылки: "демо1" и "демо2". Как Вы считаете, какой из примененных мной алгоритмов более подходит. Какой следует оставить?
Очень хорошо видно разницу на коротких гаплотипах: например для CP4ZB - Marchukov
Вариант1 и вариант2

Цитировать

а может результат выдавать сразу в трех варинтах

Уже.

Но только как временное решение.

ПС Были "кривые" ссылки. Исправил.

Овод · « **Ответ #147 :** 20 Ноябрь 2011, 22:45:42 »

Можно оставить оба варианта. Если же выбирать, то лучше стандартный (поаллельный).

Lesla · « **Ответ #148 :** 21 Ноябрь 2011, 01:05:23 »

Владимир у тебя в базе:
201495 Matveev R1a-Prussian L366+
Прусская у нас вроде L365+

Овод · « **Ответ #149 :** 21 Ноябрь 2011, 11:21:38 »

Вячеслав, там 2 разные "прусские" ветки: L365 и L366. Филогенетически они довольно сильно разнятся (хотя обе под Z280), но географически - близки.

Можно, конечно, L366 дать другое название, скажем "померанская". Но тагда будет полный контрапункт с поляками, которые называют L365 "померанской", а L366 - "прусской".

Хотя оба эти названия характеризуют, по большом счёту, один географический регион.

АвторТема: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК (Прочитано 166227 раз)

Semargl

Re: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК

Semargl

Re: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК

Valery

Re: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК

Semargl

Re: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК

Valery

Re: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК

Semargl

Re: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК

Valery

Re: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК

Semargl

Re: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК

Semargl

Re: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК

Овод

Re: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК

NMT

Re: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК

Semargl

Re: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК

Овод

Re: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК

Lesla

Re: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК

Овод

Re: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК