Уважаемый Денис,
я со своей стороны попробую тоже проанализировать эти гаплотипы, но только на предмет аномалий в гистограммах распределения аллелей по каждому маркеру. После разработки и проверки на адекватность модели потока мутаций у меня по 12-ти маркерам сохранились гистограммы для R1b, I1, J2 построенные по нескольким тысячам гаплотипов.
1. Когда я обрабатывал значительные массивы данных (по R1b более 7000 12-ти маркерных гаплотипов), то на аномалии действительно натыкался, причем, были и явные "ручные" ошибки при занесении в базу данных. Другое дело, что на результат вычисления среднего кол-ва мутаций (соответственно, на время до первопредка) это влияло слабо, максимум процентов на 5% (правда, понижение точности из-за таких ошибок я строго не анализировал).
Мне кажется, что действительно имеет смысл еще раз по данной выборке каким либо методом вычислить время, затем удалить гаплотипы, которые вызывают сомнения, и еще раз тем же самым методом вычислить время и оценить возникшее расхождение. Возможно, что ошибка не будет превышать погрешности самого метода и исходной ограниченности статистики. Но если расхождение действительно окажется весьма значительным, то в этом случае действительно стоит подождать дополнительных данных по этому региону.
2. Много или мало статистических данных для формулирования выводов - вечный вопрос. Думается, что и при малом наборе данных имеет смысл строить экстраполяции, понимая, что в дальнейшем придется корректировать. Иначе мы никогда не сдвинемся с места. К тому же, сразу начинаем нарабатывать методики, технологию, выстраивать какие-то рабочие гипотезы. Замечу, что и А.А., получив дополнительные данные, также скорректирует результаты расчетов. Кстати, он такие поправки неоднократно вносил по другим направлениям, и никто из этого трагедии не делал, это нормальный процесс. Здесь, видимо, проблема была в другом - отрицание полученного результата путем выражения словесного недоверия к выборке. А надо было бы, наверное, показать, по каким гаплотипам и в каких маркерах очевидные "опечатки" в базе данных, и как они могли повлиять на конечный результат. Вот против такой развернутой и конкретной критики никто бы и не стал возражать.
3. Вы поставили крайне важную проблему о качестве исходных данных. Именно для специалистов, занимающимся набором первичных данных и экспресс-обработки оных это весьма актуально.
В свое время мне пришлось столкнуться с похожей проблемой ручного ввода огромных массивов данных операционистками (не в банке, конечно). Как решалась проблема? Скажу прямо, до конца работа не была доведена по причинам от меня не зависящим (перестройка, гласность, Горбачев, Ельцин и т.п.). Тем не менее, была разработана мини-экспертная система, анализирующая каждую вводимую типовую порцию данных. Если эта новая порция по своим статистическим параметрам отличалась от накопленного массива, то система предлагала ее проверить. Под базой знаний (обучающая выборка) в которой были и типичные ошибки, и гистограмма исправленных результатов. Сейчас это можно решить типичными методами нейронных сетей, например, тем же персептроном. Уверен, что Valery запросто такой софт реализует, причем, эту работу можно, наверное, включить и в План-график по соответствующей тематике Вашего Института. С падением цены на ДНК-анализы и ростом популярности этой области знания следует ожидать лавинообразного увеличения заказов на анализы, поэтому соответствующие методики набора, проверки и хранения больших объемов данных надо готовить сейчас (как говорится, "готовь сани летом").