Имхо, самая важная часть статьи посвящена математической модели расчета максимально правдоподобной величины мю (мат.ожидаемому среднему количеству накопленных мутаций в одном маркере от аналогичного маркера предкового гаплотипа).Это может быть серьезной альтернативой или же дополнением используемой в том же Нетворке ро-статистики Форстера, где вероятностям мутацией не придается особого значения. Если бы сюда еще добавить расчеты байесовому априорному/апостериорному распределению и запрограммировать это в Мурку, цены бы этому методу не было бы.
Уважаемый Вадим, я очень рад, что Вы нашли время прочитать мой опус. В первую очередь именно для наших товарищей (Вы, Адамов, Клесов, Князь Игорь, Valery, Центурион, и многие другие) реально занимающихся расчетами количества мутаций, моя работа и была написана. Я очень рассчитываю на жесткую и подробную критику, поскольку важность поднятого вопроса того стоит.
Со своей стороны сразу скажу о наиболее больном месте публикации. Для обеих моделей потока мутаций многомерная плотность вероятности для совокупности измерений (значений конкретного маркера для совокупности гаплотипов) представляется в виде произведения одномерных вероятностей, количество коих соответствует количеству гаплотипов. Спрашивается, а на каком-таком основании это сделано? Такое представление справедливо только в случае стохастической независимости значений исследуемого маркера во всех гаплотипах. Но ведь это не соответствует истине, поскольку генеалогический путь от первопредка к каждому потомку (гаплотипу) частично совпадает с генеалогическими путями других потомков (гаплотипов).
В данном случае я воспользовался соображением, что количество мутаций - это матожидание пуассоновского распределения потока мутаций. Известно, что для коррелированной и некоррелированной совокупности случайных величин выборочное среднее является максимально правдоподобной оценкой матожидания. А вот для дисперсии максимально правдоподобные оценки уже различаются для коррелированной и некоррелированной последователностей. Таким образом, есть основания полагать, что на оценку среднего количества мутаций корреляция (точнее, стохастическая зависимость) не повлияет, а вот на величину доверительного интервала - да. Вместе с тем, полученные мною доверительные интервалы заведомо больше, чем для коррелированной последовательности и, таким образом, я получил более пессимистические значения доверительных интервалов, чем они должны быть на самом деле.
Дополнительная уверенность в правильности вышесказанных допущений возникает по причине того, что для разных мат. моделей потока мутаций результаты совпали, пусть эти модели и взаимосвязаны теоретически определенным образом.
Вместе с тем, определенный червь сомнения меня гложет, поэтому для ОКОНЧАТЕЛЬНОЙ проверки я решил смоделировать формирование деревьев гаплотипов от первопредка к потомкам и уже по ним еще раз провести оценку количества мутаций. Думаю, что за месяц данную работу осилю. Замечу, что весьма остроумный метод моделирования дерева от потомков к предку, придуманный Князем Игорем, здесь применить не удастся, и придется "по честному" строить множество деревьев и выбирать те из них, которые за заданное количество поколений не прервались и количество финальных потомком не меньше требуемого.
Теперь по поводу байесовских и прочих оценок. Как Вы понимаете, все вожделеют получить максимально правдоподобные оценки, поскольку их свойства наиболее привлекательны. Если удалось построить максимально правдоподобную оценку, то зачем применять иные оценки? Другое дело, что максимально правдоподобные оценки редко даются в руки. Мне лично не удалось окончательно "продраться" через дискретные распределения и окончательных красивых формул получить не удалось (и даже в этом случае пришлось делать допущение о замене многомерной плотности произведением одномерных). Замечу, что Д.Адамов предложил мне довольно интересный путь для второй модели (глава 7) как получить финальные аналитические выражения, но я на этом пути встретил большие затруднения. Думается, Д.Адамов смог бы в отличие от меня, завершить путь. Тем не менее, численные процедуры вполне рабочие и дают возможность получить сколь угодно точные результаты (за счет времени счета, конечно).
Байесовские и прочие критерии требуют априорной информации, которую обычно неоткуда получить, и приходится как-то ее придумывать, обосновывать. Именно по этой причине я очень не люблю всякие апостериорные вероятности, риски, матрицы потерь и прочее.
Как можно срастить с Муркой. Именно об этом в первую очередь я и задумался, о чем на Форуме я и сообщил Valery. Правда, он к этом отнесся несколько скептически, а зря, мне думается. Технология совмещения может быть, например, такой: по всей массе гаплотипов я ( в данном случае "я" - это условно) рассчитываю модальный гаплотип и первое приближение времени (точнее, количества мутаций) до первопредка. Затем, с помощью Мурки гаплотипы "разваливаются" на ветви, для каждой из которых вычисляется моей процедурой модальный гаплотип ветви и время до основателя данной ветви. Как-то так.
Здесь же хочется отметить, что вычисление времени до первопредка разбивается на две НЕЗАВИСИМЫЕ части: вычисление количества мутаций и, используя калибровочное значение скорости (интернсивности) мутаций, пересчет полученного количества мутаций во время до первопредка. Думается, что в публикациях и при обсуждении всегда имеет смысл указывать полученное количество мутаций, а затем уже и количество поколений. В этом случае при уточнении калибровочных значений скоростей указанное количество мутаций легко по-новой пересчитать в количество поколений. Иначе надо по-новой вычислять количество мутаций и т.п.