Недавно, пытаясь (с подачи Вадима Веренича) "скрестить" ASD и ро-статистику в расчётах ВБОП по полученным в результате филогении деревьям, я "по-ходу" получил оценку для популяционного влияния дерева с заданной топологией на расчёт его возраста по ASD. Хотя полученная формула имеет лишь косвенное отношение к первоначальной затее, она может оказаться даже интересней в свете недавних разговоров о "популяционном смещении" в ASD-методах.
Итак, пусть задано произвольное дерево со следующими параметрами:
N - число современных гаплотипов на нём
Т - возраст дерева (число поколений от корня до вершины)
Li и Ki - cоответственно длина (в поколениях) и кратность i-того ребра дерева.
Здесь под "ребром" понимается участок дерева без ветвлений на нём, а под "кратностью" - число финальных потомков, к которым ведёт этот участок.
Для начала рассмотрим формулу для "смещенной" ASDc = SUMij(ai-aj)2/N2, переводя которую к гистограммному виду (по частоте аллелей в выборке) и рассматривая случай единичной мутации на любом i-том ребре с кратностью Кi получаем приращение дисперсии за счёт этой мутации равное 2*Ki(1-Ki/N)/N. Усредняя этот результат по всем рёбрам (с весом их длины), получаем, для средней ASDс в результате ожидаемого числа мутаций на дереве со средней скоростью m мутаций/поколение ASDc = 2mSUMi(LiKi(1-Ki/N)/N), и, учитывая, что для любого дерева SUMi(LiKi/N) = T, имеем итоговую оценку смещения относительно истинного возраста Т:
Т - ASDС/2m = SUMi(LiKi2/N2) (1)
Однако, для "смещённой" дисперсии мы не можем чётко выделить именно "популяционное смещение" , так как чисто статистически эта оценка также смещена. Чтобы его всё же найти, рассмотрим формулу "несмещённой" ASD:
ASDН = SUMij(ai-aj)2/(N(N-1)) = ASDС*N/(N-1)
и, домножая обе части уравнения (1) на N/(N-1), после нехитрых преобразований, получаем:
Т - ASDН/2m = SUMi(LiKi(Ki-1))/(N(N-1))
что и является искомой формулой чисто "популяционного" смещения для внутрикладовой ASD. Интересны два факта, вытекающих из этой формулы:
1. Терминальные ветви дерева, кратность которых всегда равна 1 не влияют на смещение дисперсии, давая нулевой результат, а всё "зло" кроется исключительно в общих ветвях, имеющих двух или более современных потомков из выборки. Собственно, их наличие и является истинной причиной популяционного сдвига.
2. Смещение квадратично возрастает с увеличением кратности ветвей и линейно - с их длиной. То есть, наличие большего числа выживших потомков предка имеет гораздо больший эффект, чем его близость по возрасту к современникам, которая тоже увеличивает смещение - но в меньшей степени.
Надеюсь, что эта формула может помочь, если не в конкретных расчётах и прикидках, то в понимании сути "популяционного эффекта" - наверняка.
P.S. Eщё раз подчеркиваю, что величины ASDC и ASDH в приведённых здесь формулах следует понимать как матожидание (среднее) ASD, а не любое (выборочное) её значение.