Просто известный факт из матстатистики, почему наряду с понятной средней величиной используются так же модалы и медианы.
Данные величины нужны для разновероятностных событий, а также в тех случаях, когда оценить событийную вероятность не представляется возможным.
Дабы не рассусоливать, просто сошлюсь на признанные авторитеты. Вот, к примеру,
Я в английском не силен, поэтому решил перевести автоматическим переводчиком:
"Эта диаграмма показывает средний интервал в годах между парой отец-сын в базе данных Y-хромосомы Сомерсона. Таблица показывает три метода определения интервала поколения. TMRCA использует модальное значение для того, чтобы преобразовать число поколений к годам."Во-первых, поясните,пожалуйста, почему на графике ось ординат обозначена как
функция правдоподобия, а не
вероятность? Правдоподобие - это, фактически, условная вероятность, у которой в качестве параметра использован некий параметр. Также я категорически не согласен с тем, что для оценки ВБОП можно использовать моду распределения (на графике "модальное значение"). Автор сам же привел в качестве примера сильно перекошенное распределение (мода еще более "прижата" влево по сравнению с приведенным графиком).
Представим себе, что мы определяем ВБОП, которая в районе 200-300 поколений. И мы будем использовать в качестве оценки средней длительности моду сильно перекошенного распределения. Ну и что мы получим в результате? Явно сильно заниженную оценку времени, которое заняли эти 200-300 поколений. Именно поэтому для вычисления ВБОП нам необходимо выборочное среднее длительности поколения (матожидание).
Я осознаю, что мода распределения может быть интересна тем, кто изучает разные тонкие причины изменения рождаемости, какие-то популяционные факторы и так далее. Действительно, очень интересно, где пик находится или вдруг сразу две или три моды. Понятно, что здесь какие-то популяционные эффекты зарыты или выборка явно неоднородна.
Поведение моды и медианы довольно специфично и для расчетов различных нормировочных параметров (типа средней длительности поколения) они все-таки неудобны.
Я ошарашен объемом работы, который Вы с Anode провели. Мои потуги по обработке 600 реальных генеалогий весьма бледно выглядят, хотя результат я получил близкий к вашим.
Для расчета ВБОП существует проблема дифференциации средней длительности мужского поколения по регионам и, особенно - во времени (в историческое время, скажем, позже начала н.э., и в более ранние времена). И можно ли в качестве модели доисторических обществ использовать данные по современным племенам Амазонии, Индонезии и пр.?
У вас накоплена огромная статистика, и ее уже вполне можно дифференцировать без особой потери точности оценок. И это было бы просто замечательно!