Я терпеливо ждал, что кто-нибудь заметит и укажет на основной методологический просчёт гипотез Вадима.
Но либо тема мало кому интересна (речь идёт об оценке степени родства по результатам мультиснип тестирования, т.е., о наиболее перспективной и быстроразвивающейся ветви всей ДНК-генеалогии).
Либо всё просто принимается на веру с оглядкой на энциклопедический потенциал Вадима.
Напрасно.
Сомневаться надо всегда.
Рассмотрим последнее:
На практике это означает, что можно смело брать нижний порог предикта (например, в случае с предиктом 4th-10th cousins -берем 10th) и затем умножаем на 1.5 -1.8, получая тем самым более достоверный предикт родства (15-18 поколений).
Положим. Положим, что действительно надо использовать некий поправочный коээфициент 1.5-1.8. Но почему в качестве основного значения берём только дальний порог вилки?!!
Напомню, я называю 4th-10th
вилкой (Relationship Range). Т.е. это граничные значения для некоторого доверительного интервала (опять же, мы даже не знаем, какой доверительный интервал 23эндМи использует).
А
предиктом называю 5th. Т.е. Predicted Relationship. Вот его то, предикт, и надо всегда использовать в качестве основного. А вовсе не дальнюю границу вилки.
Например, у меня есть три кузена с одинаковым предиктом - 5th Cousin. Но с тремя разными вилками: 3rd to 8th Cousin, 3rd to 9th Cousin, 3rd to 10th Cousin. Если мне и захочется поумножать на 1.5-1.8, то брать я всегда буду 5, а не 8, 9, или 10. Последние три числа характеризуют форму вероятностного колокола.
Напомню:
Пусть у нас имеется следующее распределение:
Условно будем полагать, что по иксам у нас идут степени родства, а по игрекам пиковые вероятности для этих степеней. (Степени по-русски, а не сдвинутыми на одного английскими кузенами.
)
Т.е. в качестве предикта, у нас бы был записан наиболее вероятный, соответствующий 9-ти юродному родству.
Если бы в качестве доверительной вероятности были выбраны 50% (именно столько, я полагаю, использует 23эндМи), то вилка бы была где-то 2-23. (На глазок разделил колокол пополам, и от крайиних значений провёл вниз воображаемые линии.)
Если доверительную вероятность взять 75%, то дальняя граница вилки уползёт за 30.
При 95% - она растворится в далях светлых.
А вот предикт у нас будет тот же. Вилка указывает на форму распределения. Чем она меньше, тем распределение имеет более вытянутый вид. Т.е. тем выше пиковая вероятность.
Ошибки по краям интервала носят совсем другую природу, нежели та, что принимает в расчёт Вадим.
Об этом я отпишу чуть-чуть позже (сейчас надо на час отлучиться.
)