А мне хотелось бы оценить степень влияния выборки на получаемые результаты.
На этот вопрос я отвечал в большой статье в первом выпуске Вестника (на англ. языке). Отвечал другими методами, но по сути вопрос был тот же. А именно, я отвечал на общее негативное высказывание на многих форумах, что выборка из YSearch для расчетов и анализа не может использоваться, так как составляется не научными методами. Этот вопрос я и сформулировал в статье, и на него ответил.
Для этого я вел расчет гаплотипов евреев по нескольким выборкам из различных источников - (1) данные в академических статьях, часто несколько источников (статей) с гаплотипами разной протяженности, от 6-маркерных и выше, обычно до 9-, 10, 12- и 17-маркерных, (2) YSearch - 12, 25-, 37, 67-маркерные гаплотипы, (3) гаплотипные проекты в сети, опять по гаплотипам разной протяженности.
Вывод - получается обычно одно и то же, в пределах погрешности счета. Иногда есть незначительные вариации, но незначительные, не меняющие смысл получаемых результатов и выводов (базовые гаплотипы и времена до общих предков).
На самом деле есть примеры, когда YSearch будет давать искаженные результаты, но такие случаи мы здесь обычно не рассматриваем.
В статье, которая сейчас в печати, я в качестве примера значимости выборок дал расчеты по R1a1 по мере накопления у меня данных за последние пару лет (в виде таблицы) - от 20 гаплотипов до 120 гаплотипов, плюс 256 17-маркерных. Везде получается одна и та же принципиальная величина, только при увеличении числа гаплотипов уменьшается погрешность расчетов, то есть среднеквадратическая ошибка при 95%-ном доверительном интервале.
Вот это и есть ответ на вопрос.
Гаплотипы - упрямая штука. Если собрать десяток 25-маркерных гаплотипов по всей стране, то они примерно дадут ту же величину, что и сто и тысяча гаплотипов, только погрешность будет намного выше у малой серии.