АвторТема: Y-DNA Benchmark Library  (Прочитано 5321 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1381/-7
  • Ultimate Matriarchy
Y-DNA Benchmark Library
« : 10 Июнь 2009, 19:17:13 »
Прошу помощи у уважаемых участников в создании

Библиотеки файлов Y-хромосомных данных со следующими свойствами:

1. Размер: от 10 до 500 гаплотипов
2. Длина: от 12 до 67 локусов (впоследствие верхняя граница может быть увеличена)
3. Наличие однотипных снипов для каждой выборки. Топология, индуцированная снипами, должна разбивать набор как минимум на 3 части, каждая не менее 10% гаплотипов
4. Каждая выборка должна содержать гаплотипы только одной гаплогруппы (предполагается дальнейшее обсуждение этого, например можно ли мешать J1 и J2, в идеале требуются какие-то точные критерии, например среднее расстояние на фиксированном наборе локусов не более ...)


Зачем это надо.

1. Для тестирования качества реконструкции истории разными программами
2. Для сравнения скорости их работы.


Форматы.

Пока YCH (с кодированием снипов 0 и 1) затем переведу в Нексус. Веса обязательны, пусть даже грубые.

Сниповый вес будет выбран достаточно большим, чтобы в норме программы находили топологию "только по снипам" такую же, как результат контракции отдельных ребер дерева по полному набору снипов и микросателлит.  Основной интерес представляет сравнение поведения программ при исключении снипов из выборок.


Оффлайн wertner

  • ...
  • Сообщений: 1332
  • Страна: ru
  • Рейтинг +321/-0
    • YFull
  • Y-ДНК: E-V13->E-S2972->E-Z16661
  • мтДНК: U4a (xU4a3)
Re: Y-DNA Benchmark Library
« Ответ #1 : 11 Июнь 2009, 00:06:50 »
1. По размеру хотелось бы услышать пожелания поконкретней: например, 10, 50, 100, 200, 500 подойдет?
2. По длине гаплотипов: в одной выборке должны быть гаплотипы одной длины или можно разной?
3. Должны ли быть гаплотипы уникальны или допустимы дубли, если они принадлежат разным людям?
4. Нужны ли в отдельном файле ссылки на источники гаплотипов (например, для уточнения, если один-два будут резко выбиваться из остальной выборки).


Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1381/-7
  • Ultimate Matriarchy
Re: Y-DNA Benchmark Library
« Ответ #2 : 11 Июнь 2009, 00:15:29 »
Привет!

1. По размеру хотелось бы услышать пожелания поконкретней: например, 10, 50, 100, 200, 500 подойдет?

для начала наверное 10, 20, 50, 100 - какие будут, я не разборчивый :)


2. По длине гаплотипов: в одной выборке должны быть гаплотипы одной длины или можно разной?

дело в том что далеко не все программы могут работать с гаплотипами разной длины :) Твоя программа приятное исключение :)


3. Должны ли быть гаплотипы уникальны или допустимы дубли, если они принадлежат разным людям?

не суть важно, так как большинство программ не учитывает частоту. Единственная проблема - то что дубли потребуют коррекции N при отображении статистики, скажем мы не сможем сравнивать результаты для N=100 уникальных и N=100 где треть повторов


4. Нужны ли в отдельном файле ссылки на источники гаплотипов (например, для уточнения, если один-два будут резко выбиваться из остальной выборки).

Я думаю нет, но для каждого файла разумно дать короткий камент с указанием источника

Оффлайн wertner

  • ...
  • Сообщений: 1332
  • Страна: ru
  • Рейтинг +321/-0
    • YFull
  • Y-ДНК: E-V13->E-S2972->E-Z16661
  • мтДНК: U4a (xU4a3)
Re: Y-DNA Benchmark Library
« Ответ #3 : 11 Июнь 2009, 00:31:24 »
Сделаю сначала по E1b1b1a1, E1b1b1a2, E1b1b1a3 с парочкой E1b1b1a* выборку из 50 67-маркерных гаплотипов. Если окажется, что я правильно понял тебя, то и другие размеры-длины-гаплогруппы можно будет сделать. Давно пора.
Конечно, я не собираюсь максимально разнообразно представлять субклады, но наборы таких выборок помогут "стартующим" исследователям гаплогрупп отталкиваться хоть от чего-то. И может быть увеличит число "древопостроителей" :)

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1381/-7
  • Ultimate Matriarchy
Re: Y-DNA Benchmark Library
« Ответ #4 : 11 Июнь 2009, 00:43:34 »
Сделаю сначала по E1b1b1a1, E1b1b1a2, E1b1b1a3 с парочкой E1b1b1a* выборку из 50 67-маркерных гаплотипов. Если окажется, что я правильно понял тебя, то и другие размеры-длины-гаплогруппы можно будет сделать. Давно пора.
Конечно, я не собираюсь максимально разнообразно представлять субклады, но наборы таких выборок помогут "стартующим" исследователям гаплогрупп отталкиваться хоть от чего-то. И может быть увеличит число "древопостроителей" :)


Здорово! Сэнкс!

Оффлайн wertner

  • ...
  • Сообщений: 1332
  • Страна: ru
  • Рейтинг +321/-0
    • YFull
  • Y-ДНК: E-V13->E-S2972->E-Z16661
  • мтДНК: U4a (xU4a3)
Re: Y-DNA Benchmark Library
« Ответ #5 : 13 Июнь 2009, 14:15:05 »
Valery, я выслал тебе пример. Ты его получил?

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1381/-7
  • Ultimate Matriarchy
Re: Y-DNA Benchmark Library
« Ответ #6 : 13 Июнь 2009, 15:25:17 »
Да, и очень им доволен!

В скором времени я выложу на сайте Мурки первые обработанные бенчмарки, с указанием их авторства.

Оффлайн wertner

  • ...
  • Сообщений: 1332
  • Страна: ru
  • Рейтинг +321/-0
    • YFull
  • Y-ДНК: E-V13->E-S2972->E-Z16661
  • мтДНК: U4a (xU4a3)
Re: Y-DNA Benchmark Library
« Ответ #7 : 13 Июнь 2009, 15:42:05 »
Хорошо, тогда постепенно накидаю тебе в почту другие размеры, длины, гаплогруппы.

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1381/-7
  • Ultimate Matriarchy
Re: Y-DNA Benchmark Library
« Ответ #8 : 13 Июнь 2009, 16:33:41 »
супер!

Оффлайн wertner

  • ...
  • Сообщений: 1332
  • Страна: ru
  • Рейтинг +321/-0
    • YFull
  • Y-ДНК: E-V13->E-S2972->E-Z16661
  • мтДНК: U4a (xU4a3)
Re: Y-DNA Benchmark Library
« Ответ #9 : 21 Июнь 2009, 01:28:17 »
Готовы файлы:
Длина: 12, 25, 37, 67
Размер выборки: 10, 20, 50, 100
Иногда информация о снипах избыточна (если одие из указанных снипов есть, то другого нет и наоборот), но это позволяет лучше соотнести с деревом YCC

Для некоторых файлов [Длина]x[Размер выборки] не хватило гаплотипов. Этих файлов нет.

В этом сообщении гаплогруппы E, G, I

Оффлайн wertner

  • ...
  • Сообщений: 1332
  • Страна: ru
  • Рейтинг +321/-0
    • YFull
  • Y-ДНК: E-V13->E-S2972->E-Z16661
  • мтДНК: U4a (xU4a3)
Re: Y-DNA Benchmark Library
« Ответ #10 : 21 Июнь 2009, 01:31:38 »
В этом сообщении гаплогруппы J, R

Все гаплотипы собраны из проектов FTDNA в мае-июне 2009 года и имеют подтвержденный снип.
Для остальных гаплогрупп у меня не хватило гаплотипов удовлетвряющих условию
Цитировать
Топология, индуцированная снипами, должна разбивать набор как минимум на 3 части, каждая не менее 10% гаплотипов

Оффлайн wertner

  • ...
  • Сообщений: 1332
  • Страна: ru
  • Рейтинг +321/-0
    • YFull
  • Y-ДНК: E-V13->E-S2972->E-Z16661
  • мтДНК: U4a (xU4a3)
Re: Y-DNA Benchmark Library
« Ответ #11 : 21 Июнь 2009, 01:37:14 »
Эти выборки созданы именно для целей сравнения программ и обучения их использования. Рассчитывать возраст по этим выборкам не стоит - они составлялись неравномерно и некоторые субклады представлены далеко неразнообразно, что приведет к занижению возраста предка.

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1381/-7
  • Ultimate Matriarchy
Re: Y-DNA Benchmark Library
« Ответ #12 : 22 Июнь 2009, 02:53:13 »
О-ба-на :) Да ты главный контрибьютор Либы :)

Оффлайн ValeryАвтор темы

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1381/-7
  • Ultimate Matriarchy
Re: Y-DNA Benchmark Library
« Ответ #13 : 04 Март 2011, 14:22:51 »
Есть идея реанимировать эту тему - по поводу дискуссии ув.Овода и ув.Маугли.

Оффлайн wertner

  • ...
  • Сообщений: 1332
  • Страна: ru
  • Рейтинг +321/-0
    • YFull
  • Y-ДНК: E-V13->E-S2972->E-Z16661
  • мтДНК: U4a (xU4a3)
Re: Y-DNA Benchmark Library
« Ответ #14 : 09 Март 2011, 02:13:34 »
Если понадобится как-то проапгредить выборки - говори. Кусок кода, который их генерил, сохранился.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.