Наконец, ни разу я не испытывал обиды от критики, а одно только чистое удовольствие от совместной работы.
Я тоже испытываю удовольствие от общения с коллегами. Хотя, признаюсь, есть элемент неудовлетворённости оттого, что пока не могу окончательно убедить уважаемого Клависа в том, что квадратичный метод - практичнее и точнее, чем линейный (даже в реализации Клависа), поскольку не зависит от разности скоростей маркеров, а уважаемого VVR - в совершенном различии понятий популяционного и выборочного эффектов на влияние оценок ВБОП. Как и в том, что первый абсолютно не следует из другого и имеет всегда эффект "омоложения", в то время, как последний независим от первого и может быть разнонаправленным.
Но истина рождается в споре. Поэтому, начнём с Клависа. Михаил, если Вы введёте в свою таблицу для вычисления среднего числа
наблюдаемых мутаций в N-том поколении ещё один столбец с вычислением дисперсии полученного на каждом этапе распределения (то есть домножите каждый элемент строчки не только на её ординату, но также и на её квадрат), то убедитесь, что дисперсия ( в отличие от среднего) с номером поколения растёт
линейно, а среднее запаздывет, причем не линейно, а экспоненциально. А если, к тому же, Вы разделите эту дисперсию на скорость мутации, то обнаружите, что она в точности равна номеру поколения, для которого рассчитана. То есть даёт возраст предка непосредственно, а не через номер поколения, для которого генеральное число "набюдаемых" мутаций в таблице совпадёт с выборочным. Это - первый аргумент, согласно которому для получения выборочной оценки возраста достаточно получить выборочную оценку дисперсии, а не "прогонять" табицу до момента совпадения наблюдаемого среднего числа мутаций с его выборочным значением.
Второй аргумент - линейная зависимость дисперсии не только от возраста, но и от скорости входящих в гаплотип маркеров. Среднее же растёт опять же, нелинейно. В этом Вы также можете убедиться, прогоняя таблицу для разных скоростей. Среднее опять же будет "запаздывать". Важным следствием этого эффекта является то, что для правильного вычисления возраста по гаплотипам, маркеры в которых имеют разную скорость Вам нужно просто сложить разности аллелей в квадрате по всем маркерам (ибо дисперсия пропорциональна скорости , а также дисперсия суммы всегда равна сумме дисперсий), в то время как в линейном методе этот фокус не пройдёт из-за нелинейности среднего от скорости. То есть, для правильного подсчета возраста Вам придётся прогонять всю таблицу для каждого маркера гаплотипа, а лишь потом усреднять. А поскольку индивидуальные скорости маркеров (в отличие от средней) известны очень неточно, то требуемая процедура будет не только медленной, но и даст сомнительный результат. Если же Вы будете проводить вычисления просто для средней скорости, то опять же получите ошибку вследствие этой нелинейности.
Иными словами линейный метод не даст,
в случае разных скоростей маркеров верного результата (он будет занижен), в то время как дисперсионный - даст. И причиной тому - нелинейная зависимость между средним наблюдаемым количством мутаций в маркере от скорости мутации. Дисперсия же этого недостатка лишена.
Я Вас убедил?