АвторТема: Semargl.me: он-лайн сервис для анализа данных по Y-ДНК  (Прочитано 163093 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Шад

  • Главный модератор
  • *****
  • Сообщений: 6334
  • Страна: ru
  • Рейтинг +1330/-4
  • Ex oriente lux
  • Y-ДНК: Q-Y2750
  • мтДНК: J1c2z
Забыли только спросить Семаргла:)
Я уже задавал ему такой вопрос.

А можно ли предусмотреть в поле для ввода данных формат Y-Filer? Я понимаю, что 17 маркеров как бы не приветствуются. Но в этом формате есть много научных образцов. Думаю, что их наличие в проекте задавало бы ориентиры в тех случаях, когда данные коммерческого тестирования по некоторых регионам или этническим группам отсутствуют или фрагментарны.
А ещё лучше бы найти возможность натравить робота Вертнера на YHRD. И потырить всё что нужно оттуда в автоматическом режиме:)

С 17-ти маркерными гаплотипами, пока, торпиться не будем. Дело в том что при наличии таких гаплотипов, возникают определенные трудности с поиском приближенцев. Короткие гаплотипы забивают всех других приближенцев. Зашел в логический тупик, надо придумать обходной путь, а много времени уделить приложению, сейчас не могу. Пока не решу эту проблему, придется ограничить ввод коротких гаплотипов.

ОК. Пока воздержимся. Но вижу, как минимум, одно простое решение. Программно ограничить "участие" коротких гаплотипов (<67) в тех выдачах данных, где они могут негативно повлиять на результат. Оставить без ограничения только опции по снипам. Просто очень много глубоко проснипованных, но "коротких" гаплотипов как в коммерческих базах, так и в научных работах.
Понятно что 100 ашкеназов Q1b с 37 маркерами в базе вообще не нужны. Достаточно их и с 67 маркерами. А вот брахманов Сарасвати или обских карагасов можно взять и с 17 маркерами. Просто нужно сформировать политику в этой области обязательную для администраторов гаплогрупп. Все люди разумные, полагаю, что перегибов не будет.

Согласен. Я как раз сейчас пытаюсь понять, как гибко ограничить, по длине, данные идущие в модуль поиска совпаденцев. И при этом не поломать существующий функционал.На данном этапе, это логическая дилемма.  Хорошо бы посоветоваться с хорошим математиком-теоретиком. :)

Он пока просит не добавлять в базу гаплотипы менее чем в 67 маркеров. А научные, к сожалению, практически всегда меньше.

Оффлайн wertner

  • ...
  • Сообщений: 1332
  • Страна: ru
  • Рейтинг +321/-0
    • YFull
  • Y-ДНК: E-V13->E-S2972->E-Z16661
  • мтДНК: U4a (xU4a3)
И правда :) Тогда ждем Семаргла :)

Оффлайн SemarglАвтор темы

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5993
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
И правда :) Тогда ждем Семаргла :)
Насколько я понимаю, эти гаплотипы имеют 12-17 маркеров?
И их не больше 2-х тысяч? (надеюсь :))
Давайте проведем эксперимент по загрузке таких гаплотипов.
Модуль сравнения гаплотипов я уже переработал. Теперь надо ограничить их вывод в таблицу, но это я смогу сделать по ходу дела.
Ну и должно быть какое либо разбиение на группы.
У меня небольшое условие, в одной группе не должно быть больше пятиста гаплотипов. Иначе будет сильно страдать скорость отбражения таких групп.

Ну и вопрос к Фарруху, а кто будет заниматься структуризацией, "уходом и поливом" загруженных гаплотипов?
Помнится Вы хотели помочь мне с гг E1b? ;)

Оффлайн Farroukh

  • Maternal Y-DNA: R1b-BY124371
  • ...
  • Сообщений: 17097
  • Страна: az
  • Рейтинг +5908/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Цитировать
Ну и должно быть какое либо разбиение на группы.
Предлагается заливать гаплотипы из научных статей, где как правило исследуются популяции из отдельных регионов. Так что разбиение на группы будет по географическому признаку
Цитировать
в одной группе не должно быть больше пятиста гаплотипов. Иначе будет сильно страдать скорость отбражения таких групп.
Этого, полагаю, достаточно.
Цитировать
а кто будет заниматься структуризацией, "уходом и поливом" загруженных гаплотипов?
Помнится Вы хотели помочь мне с гг E1b?
Собственно, максимум, что я могу предложить - это вручную конвертировать гаплотипы E1b1b1-M34 из статей в формат, удобный для робота.
Что ещё требуется, кроме разбиения на географические группы?

Оффлайн SemarglАвтор темы

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5993
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Что ещё требуется, кроме разбиения на географические группы?
Я говорил именно об этом.
Первый пункт необходим, остальные желательны.
1) необходимо будет разбить загруженные гаплотипы на группы.
2) при возможности, надо указать географические координаты.
3) ну и если есть любая дополнительная информация об этом гаплотипе, желательно добавить ее в поле "комментарий"

Все остальное по ходу загрузки.
Посмотрим, с какими проблемами столкнемся.

Оффлайн Аббат Бузони

  • Модератор
  • *****
  • Сообщений: 19888
  • Страна: ru
  • Рейтинг +1818/-60
  • Y-ДНК: I1-SHTR7+
  • мтДНК: H16-a1-T152C!
У Центуриона должно быть много гаплотипов, он провел огромную работу, нельзя чтобы его труд пропал. А то будет как у кое какой лаборатории, где пыляться гаплотипы 17-ти маркерные, которые никому скоро будут не нужны.   

Оффлайн SemarglАвтор темы

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5993
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
У Центуриона должно быть много гаплотипов, он провел огромную работу, нельзя чтобы его труд пропал. А то будет как у кое какой лаборатории, где пыляться гаплотипы 17-ти маркерные, которые никому скоро будут не нужны.
Если конечно, уважаемый Центурион, захочет выложить эти гаплотипы в открытый доступ.
Я конечно согласен.

Оффлайн Аббат Бузони

  • Модератор
  • *****
  • Сообщений: 19888
  • Страна: ru
  • Рейтинг +1818/-60
  • Y-ДНК: I1-SHTR7+
  • мтДНК: H16-a1-T152C!
Это огромнейший труд, если захочет конечно.

Оффлайн Farroukh

  • Maternal Y-DNA: R1b-BY124371
  • ...
  • Сообщений: 17097
  • Страна: az
  • Рейтинг +5908/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Цитировать
Я пришлю форму файла, ее надо будет заполнять. После этого надо будет выслать файл мне на почту, а я скормлю роботу.
Вадим, вывеси эту форму здесь

Оффлайн Шад

  • Главный модератор
  • *****
  • Сообщений: 6334
  • Страна: ru
  • Рейтинг +1330/-4
  • Ex oriente lux
  • Y-ДНК: Q-Y2750
  • мтДНК: J1c2z
Предлагаю все же вернуться к вопросу об автоматизации ввода 17-маркерных гаплотипов из научных статей.
Сегодня внес такой гаплотип. 100 штук подряд ввести вручную - вопрос на любителя:) Поэтому может сделать опцию ввода в разных форматах как на предикторе?

Ранее этот вопрос поднимал здесь. Теперь, как я понял, препятствия для ввода "коротких" гаплотипов устанены. Разумеется, все администраторы понимают, что это не для "массовки", а для уникальных гаплотипов.

Кстати. Насчет ID научных образцов. Предлагаю следующую систему:  код гаплотипа по публикации; AS - academic sample; далее - месяц и год публикации. В моем примере: 107ASM12.
« Последнее редактирование: 29 Март 2012, 22:59:04 от Шад »

Оффлайн SemarglАвтор темы

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5993
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Предлагаю все же вернуться к вопросу об автоматизации ввода 17-маркерных гаплотипов из научных статей.
Сегодня внес такой гаплотип. 100 штук подряд ввести вручную - вопрос на любителя:) Поэтому может сделать опцию ввода в разных форматах как на предикторе?

Ранее этот вопрос поднимал здесь. Теперь, как я понял, препятствия для ввода "коротких" гаплотипов устанены. Разумеется, все администраторы понимают, что это не для "массовки", а для уникальных гаплотипов.

Кстати. Насчет ID научных образцов. Предлагаю следующую систему:  код гаплотипа по публикации; AS - academic sample; далее - месяц и год публикации. В моем примере: 107ASM12.
Насчет ID согласен. Хорошее предложение.
Но есть ограничения по именам:
имена гаплотипов должны быть как можно короче, состоять из одного-двух слов, написанны латиницей.
На примере 107ASM12: имя "Academic Sample (Hazara people)" можно ужать до Hazara.

Отписался Вадиму, что я уже готов протестировать автоматический прием "коротких" гаплотипов.

По задумке, все новые 37-маркерные гаплотипы будут загружены в группу <HG>-Unknown-37.
Гаплотипы менее 37 маркеров, пойдут в группу <HG>-Unknown-short

Готов выслушать все конструктивные предложения.

Оффлайн SemarglАвтор темы

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5993
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Все сообщения по подсчету ВБОП перенесены в отдельную тему http://forum.molgen.org/index.php/topic,4118.0.html

Оффлайн SemarglАвтор темы

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5993
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
По просьбе уважаемых форумчан, добавил возможность вывода информации по протестированным снипам, для каждой отдельно взятой ветви.
Ссылка на таблицу со снипами ветви, доступна со страницы "Карты субкладов".
Справа от нужной Вам ветви ищите ссылку "Table SNP for branch".
Информацию в колонках можно сортировать, кликнув мышкой на заголовок столбца.

Оффлайн Lesla

  • Главный модератор
  • *****
  • Сообщений: 9628
  • Страна: ru
  • Рейтинг +2923/-9
  • FTDNA: 154400 (Big Y - 283049)
  • Y-ДНК: R1a-YP682 (VK06+)
Спасибо, Владимир! Очень хорошая возможность.

А страница автоматически подгоняется по ширину экрана? Просто не очень удобно. Лучше, чтобы полоса прокрутки всегда была рядом, браузерная, а то пока спускаешься до нее - теряешь ориентацию.

Оффлайн SemarglАвтор темы

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5993
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Спасибо, Владимир! Очень хорошая возможность.

А страница автоматически подгоняется по ширину экрана? Просто не очень удобно. Лучше, чтобы полоса прокрутки всегда была рядом, браузерная, а то пока спускаешься до нее - теряешь ориентацию.
Сделал.
Только теперь "шапка" не очень красиво выглядит. Зато функционально и удобно ;)

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.