Сейчас лишь могу уверенно сказать, что ошибки в зависимости от конкретного вида дерева огромны
Вот-вот, наконец-то доехало....
Да я эту возможность в голове всегда держал, но не обсуждал, поскольку Обчеству интересны КОЛИЧЕСТВЕННЫЕ оценки разброса, а размеры бедствия я только с помощью моделирования начал нащупывать. С другой стороны, уже проглядываются и возможности как сузить диапазон погрешностей. В общем, будем работать в заданном направлении.
Хотел вот еще что сказать.
Пусть у нас есть НЕСКОЛЬКО достоверных генеалогических деревьев за последние 500 лет. В силу короткого исторического периода и малого количества мутаций (реальные их скорости даже у быстрых маркеров всего 0.002 - 0.007) мы получим, что накопленное количество мутаций у этих деревьев будет весьма сильно отличаться. Здесь, кстати, свойство пуассоновского распределения напрямую сказывается (матожидание равно дисперсии): если, скажем, среднее кол-во мутаций на интервале 500 лет (20 поколений) = 20*0.005=0.1, при этом rms=sqrt(0,1)=0.31, а +-3*rms = +-1,03!!! То есть, от 0 до в 10 раз больше, чем среднее значение! Вот такая ошибка. А вот для 100 поколений 500*0.005=2.5, при этом rms=1.58, то есть, значительно меньше, и интервал "три сигмы" соизмерим уже со средним значением 2.5. А теперь представим, что мы калибруем скорость мутаций по конкретному генеалогическому 500-летнему древу. Что мы получим для другого 500-летнего древа, приложив результаты калибровки по первому? Представили?
Конечно, оценки по реальным генеалогиям проводить надо. Но здесь следует помнить, что надо бы калибровать не по одной генеалогической линии (например,Мак-Дональды), а по десяти как минимум (слишком большой разброс в мутациях на коротком историческом интервале).
Вот почему я считаю, что в основу надо брать скорости по парам "отец-сын", благо уже более чем для десятка маркеров они известны с доволно высокой точностью (недавняя статья Goenloed и др.).