АвторТема: Выборки гаплотипов - теория и практика  (Прочитано 30643 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
А мне хотелось бы оценить степень влияния выборки на получаемые результаты.

Практически сделать это можно было бы сл. образом:

1) Взять выборку отснипованных 67-маркерных гаплотипов (смотрим в день завтрашний! :) ).
2) По каждому из маркеров составить частотную таблицу значений хотя бы до 10%. Т.е. берем наиболее частовстречающееся значение и его частоту в процентах, затем второе, третье (если будет) и так до 10%. Иными словами у нас не может быть больше 10 значений. А на деле их будет 3-4. Иногда 1. Возможно 5. (Конечно, лучше 10% порог снизить до 1-3%.)
3) Исходя из частоты значений маркеров, сгенерировать 10 гаплотипов. (Опять же, можно и 30.)
4) Выполнить построение, разделение на ветви и расчеты TMRCA.
5) Добавлять по 1, или 5, или 10 новых сгенерированных гаплотипа.
6) Производить построения.
7) Проанализировать изменение топологии и TMRCA для начальной десятки.

По-моему, не очень сложная в плане программирования задача? А ответов даст много.

Ну, и естественно под это дело можно написать крепкую статью, как на русском, так и на английском.

Ничего подобного в плане анализа выборок мне не попадалось.

В перспективе можно было бы забацать скрипт, куда впихивались бы значения из реальных выборок, а на их бы основе делалась симуляция.

Но это уже мазохистские изыски из области нереального.

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Степень влияния выборки
« Ответ #1 : 11 Сентябрь 2009, 17:47:06 »
Есть метод, обратный описанному Вами. Он называется  bootstrap analysis, только в нем не добавляют гаплотипы в выборку, а наоборот, изымают из выборки произвольные гаплотипы. Этот метод реализован, в частности, в одной из филоутилит в пакете Phylip.  С его помощью оценивают надежность той или иной ветви древа.

Ув. mouglley этим каждый день занимается на практике с реальными гаплотипами. Он может поделится с Вами на основании своего сугубо эмпирического опыта информацией о том, как меняется выборка из 67 маркерных гаплотипов с добавлением каждого нового гаплотипа.

Цитировать
Bootstrapping is a way of testing the reliability of the dataset. It is the creation of pseudoreplicate datasets by resampling. Bootstrapping allows you to assess whether the distribution of characters has been influenced by stochastic effects. In phylogenetic analyses nonparametric bootstrapping is the most commonly used method. The pseudoreplicate datasets are generated by randomly sampling the original character matrix to create new matrices of the same size as the original. The frequency with which a given branch is found is recorded as the bootstrap proportion. These proportions can be used as a measure of the reliability (within limitations) of individual branches in the optimal tree.

Thus bootstrap analysis:

    * is a statistical method for obtaining an estimate of error
    * is used to evaluate the reliability of a tree
    * is used to examine how often a particular cluster in a tree appears when nucleotides or aminoacids are resampled

« Последнее редактирование: 11 Сентябрь 2009, 17:55:17 от Vadim Verenich »

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Степень влияния выборки
« Ответ #2 : 11 Сентябрь 2009, 18:35:22 »
Можно отработать всё за час малой кровью.
Если никто не возьмется, то на выходные сам сделаю.
Всё что мне нужно, так это выборка в сотню 67-маркерных гаплотипов одного субклада. Желательно многобуквенного субклада. Желательно отснипованные гаплотипы.
Ну, а нет - кочевряжиться не стану. Давайте сотню гаплотипов субклада какой есть. Да, хоть бы и по предиктору.  :)

Процесс следующий:
1) С помощью генератора случайных чисел выбираем 10 гаплотипов. (Ведь выборки в большинстве случаев отсортированы, что для нас не есть хорошо.)
2) Строимся.
3) Добавляем 10 следующих случайных гаплотипов.
4) Строимся.
5) Анализируем возникшие изменения топологии для первой десятки.
6) и далее. Добавляем по десятку случайных гаплотипов, выполняя затем построения и анализ для начальной десятки.

Лучше один раз увидеть, что говорится.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Степень влияния выборки
« Ответ #3 : 11 Сентябрь 2009, 19:52:12 »
Ну вот, Вадим дал вместо меня идеальный ответ - здорово, а то я уже собрадся писать :)
А я бы всё-таки вместо того, чтобы по одному гаплотипу убавлять и проверять ветви, всё-таки проверил шире.
Именно сами выборки.
То есть хотя бы 10, 15, 20, 25, 30, 35, 40 случайно выбранных гаплотипов. С контролем первой десятки.

Все семь построений просто выложил бы в ветку про выборки (где-то была такая).

Короче говоря, если ни у кого нет желания, то давайте мне 40 односубкладных 67-маркерных гаплотипов и я всё по быстрому разрисую.

Опять же, можно было бы сделать всё под Мегой с филипкой, под Сплитом и под Муркой, а затем сравнить.

Оффлайн aklyosov

  • Сообщений: 117
  • Рейтинг +11/-8
Степень влияния выборки
« Ответ #4 : 11 Сентябрь 2009, 20:09:23 »
А мне хотелось бы оценить степень влияния выборки на получаемые результаты.

На этот вопрос я отвечал в большой статье в первом выпуске Вестника (на англ. языке). Отвечал другими методами, но по сути вопрос был тот же. А именно, я отвечал на общее негативное высказывание на многих форумах, что выборка из YSearch для расчетов и анализа не может использоваться, так как составляется не научными методами. Этот вопрос я и сформулировал в статье, и на него ответил.

Для этого я вел расчет гаплотипов евреев по нескольким выборкам из различных источников - (1) данные в академических статьях, часто несколько источников (статей) с гаплотипами разной протяженности, от 6-маркерных и выше, обычно до 9-, 10, 12- и 17-маркерных, (2) YSearch - 12, 25-, 37, 67-маркерные гаплотипы, (3) гаплотипные проекты в сети, опять по гаплотипам разной протяженности.

Вывод - получается обычно одно и то же, в пределах погрешности счета. Иногда есть незначительные вариации, но незначительные, не меняющие смысл получаемых результатов и выводов (базовые гаплотипы и времена до общих предков).

На самом деле есть примеры, когда YSearch будет давать искаженные результаты, но такие случаи мы здесь обычно не рассматриваем.

В статье, которая сейчас в печати, я в качестве примера значимости выборок дал расчеты по R1a1 по мере накопления у меня данных за последние пару лет (в виде таблицы) - от 20 гаплотипов до 120 гаплотипов, плюс 256 17-маркерных. Везде получается одна и та же принципиальная величина, только при увеличении числа гаплотипов уменьшается погрешность расчетов, то есть среднеквадратическая ошибка при 95%-ном доверительном интервале.

Вот это и есть ответ на вопрос.   

Гаплотипы - упрямая штука. Если собрать десяток 25-маркерных гаплотипов по всей стране, то они примерно дадут ту же величину, что и сто и тысяча гаплотипов, только погрешность будет намного выше у малой серии.


Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Степень влияния выборки
« Ответ #5 : 11 Сентябрь 2009, 20:15:40 »
На этот вопрос я отвечал в большой статье в первом выпуске Вестника (на англ. языке). Отвечал другими методами, но по сути вопрос был тот же. А именно, я отвечал на общее негативное высказывание на многих форумах, что выборка из YSearch для расчетов и анализа не может использоваться, так как составляется не научными методами. Этот вопрос я и сформулировал в статье, и на него ответил.

Для этого я вел расчет гаплотипов евреев по нескольким выборкам из различных источников - (1) данные в академических статьях, часто несколько источников (статей) с гаплотипами разной протяженности, от 6-маркерных и выше, обычно до 9-, 10, 12- и 17-маркерных, (2) YSearch - 12, 25-, 37, 67-маркерные гаплотипы, (3) гаплотипные проекты в сети, опять по гаплотипам разной протяженности.

Анатолий, в Ваших выкладках шла речь о получении данных по разным выборкам.
Основной задачей являлось выявление предкового гаплотипа и расчет времени до него.

Я же хочу оценить степень изменения достоверности одной и той же выборки.
Для того, чтобы хотя бы приблизительно знать, насколько случайное увеличение рассматриваемых гаплотипов влияет на топологию и TMRCA интересующей нас референтной группы.

Оффлайн aklyosov

  • Сообщений: 117
  • Рейтинг +11/-8
Степень влияния выборки
« Ответ #6 : 11 Сентябрь 2009, 20:27:34 »
На этот вопрос я отвечал в большой статье в первом выпуске Вестника (на англ. языке). Отвечал другими методами, но по сути вопрос был тот же. А именно, я отвечал на общее негативное высказывание на многих форумах, что выборка из YSearch для расчетов и анализа не может использоваться, так как составляется не научными методами. Этот вопрос я и сформулировал в статье, и на него ответил.

Для этого я вел расчет гаплотипов евреев по нескольким выборкам из различных источников - (1) данные в академических статьях, часто несколько источников (статей) с гаплотипами разной протяженности, от 6-маркерных и выше, обычно до 9-, 10, 12- и 17-маркерных, (2) YSearch - 12, 25-, 37, 67-маркерные гаплотипы, (3) гаплотипные проекты в сети, опять по гаплотипам разной протяженности.

Анатолий, в Ваших выкладках шла речь о получении данных по разным выборкам.

Основной задачей являлось выявление предкового гаплотипа и расчет времени до него.

Я же хочу оценить степень изменения достоверности одной и той же выборки.

Для того, чтобы хотя бы приблизительно знать, насколько случайное увеличение рассматриваемых гаплотипов влияет на топологию и TMRCA интересующей нас референтной группы.

Это было бы интересное исследование (как и любые наглядные исследования практический значимости), хотя на мой вгляд это частный случай того, что я описал. Я мог бы выслать Вам сотню 25-маркерных гаплотипов R1a1 для такого упражнения, или 72 67-маркерных.

Естественно, ответ будет зависеть от числа галотипов в выборке. Для трех-пяти гаплотипов снятие одного может менять результат значительно. Для десятка 25-маркерных эффект будет меньше. Для сотни разница будет назначительна.

Но есть еще один нюанс. В этой сотне R1a1 гаплотипов у маркер DYS391 будет 48 с "10", и 52 с "11". Или наоборот. Поэтому случайное удаление излишка 10 или 11 приведет к изменению аллели в базовом гаплотипе. Поэтому для Вашего эксперимента надо считать аллели не округляя, а до десятых или - лучше - сотых долей. Тогда данные плыть будут меньше, поскольку достоверность будет задаваться средним числом мутаций на маркер (или на гаплотип).  

Если есть желание, я мог бы посчитать для Ваших результатов доверительные интервалы при 95%.  

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Степень влияния выборки
« Ответ #7 : 11 Сентябрь 2009, 20:34:43 »
Анатолий, скиньте мне, пожалуйста, только 48 гаплотипов с  DYS391 10.

По ним и сделаю построение с дискретой в дюжину.

Если строить по всей сотне, то наглядность понизится. Не говоря о такой мелочи, как время на просчет.
А так завтра за часик всё сделаю и выложу: 12, 24, 36, 48. С использованием первой дюжины в качестве референтной.
Если отличия будут значительны - возьму дискрету 6 и сделаю семь построений: 12, 18, 24, 30, 36, 42, 48.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Степень влияния выборки
« Ответ #8 : 11 Сентябрь 2009, 20:42:51 »
Построение выполню сначала только для анализа топологии.
Скорость мутаций постоянная 0.0021.
Поколенный интервал 30 лет.
Одношаговая модель мутаций.
Доверительный интервал 75%. Вообще раньше, подгоняя свой результат под Ваш (речь идёт о простом замере линейкой), я вывел цифирь 82%. Но сейчас ничего подгонять не буду. Просто 75% в используем мною скрипте соответствует 50% в калькуляторе TMRCA. (Имеет место полуторное увеличение.)
Модальный гаплотип по каждой из выборок присутствует. (Естественно, он будет плыть.)

Соотношение времен можно будет просмотреть на коленке, просто по масштабной линейке.

Если Вы сделаете расчет времен - сопоставим. Конечно же, Вы можете использовать свои скорости мутаций и величину поколенного интервала.

Я могу сделать свой расчет времён. Опять-таки, сверимся.
« Последнее редактирование: 11 Сентябрь 2009, 21:07:49 от Mich Glitch »

Оффлайн aklyosov

  • Сообщений: 117
  • Рейтинг +11/-8
Степень влияния выборки
« Ответ #9 : 11 Сентябрь 2009, 22:10:40 »
скиньте мне, пожалуйста, только 48 гаплотипов с  DYS391 10.

Скинул 111 25-маркерных гаплотипов гаплогруппы R1a1, из них 51 с "10" и 58 с "11" в DYS391, и по одному "9" и "12". Выбирайте, что лучше для постановки задачи.

Еще направил 72 67-маркерных гаплотипа, чтобы исследование было более адекватным.


Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Степень влияния выборки
« Ответ #10 : 12 Сентябрь 2009, 07:32:19 »
скиньте мне, пожалуйста, только 48 гаплотипов с  DYS391 10.

Скинул 111 25-маркерных гаплотипов гаплогруппы R1a1, из них 51 с "10" и 58 с "11" в DYS391, и по одному "9" и "12". Выбирайте, что лучше для постановки задачи.

Еще направил 72 67-маркерных гаплотипа, чтобы исследование было более адекватным.
Анатолий,
Всё получил.
Большое спасибо.
Проработаю и 25 маркерные и 67 маркерные гаплотипы, чтобы картинка была полнее.
Сейчас всё, что касается выборок перетащу в отдельную ветку.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Выборки гаплотипов - теория и практика
« Ответ #11 : 12 Сентябрь 2009, 19:04:47 »
Начал обрабатывать 25 маркерные гаплотипы.
Из выборки в 111 односубкладных гаплотипов, предоставленной Анатолием, отобрал 50 гаплотипов со значением DYS391 равным 10.
С помощью генератора случайных чисел сделал выборку в десять гаплотипов.
Затем случайным образом добавлял по 10 гаплотипов.
Иными словами, имею сейчас 5 выборок в 10, 20, 30, 40 и 50 гаплотипов.
Первая десятигаплотипная выборка является референтной. Т.е. задача состоит в анализе именно этих 10 сэмплов. Попытаемся проанализировать, как изменение количества рассматриваемых образцов влияет на топологию и TMRCA базовой группы.

Практический аспект данного микроисследования - очевиден. Допустим, был произведен расчет времен и поиск предкового гаплотипа по выборке в 100 гаплотипов. Можно, опираясь на данные, которые мы сейчас получим, прикидочно оценить, насколько изменится результат в будущем, по мере поступления новых данных.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Выборки гаплотипов - теория и практика
« Ответ #12 : 12 Сентябрь 2009, 19:47:10 »
Получены следующие файлы для построений и расчетов времен:

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Выборки гаплотипов - теория и практика
« Ответ #13 : 12 Сентябрь 2009, 20:12:02 »
Получил следующие файлы для Меги:
« Последнее редактирование: 12 Сентябрь 2009, 20:53:01 от Mich Glitch »

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Re: Выборки гаплотипов - теория и практика
« Ответ #14 : 12 Сентябрь 2009, 20:37:03 »
Ув. Михаил,

А сколько вариантов деревьев в каждом файле для Меги? Один?
Вы не могли бы прислать эти выборки на мейл, я немного поколдую над ними в Mr.Bayes?

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.