Логичнее (повторюсь в третий раз, потому как никакого отклика от Вас на предложение не услышал - возможно Вы его просто не поняли ) взять собрать по десятку приближенцев из открытых баз для каждого гаплотипа; добавить туда гаплотипы из семерки и выполнить построения для каждого из тестируемых. Вместе с расчетами времен, всё это займет часа три.
Обязательно это сделаю. Сейчас не всегда есть доступ к Интернету-компу, ограничено, постараюсь в понедельник может...
Пока вот, попытался сделать самостоятельный расчет времен и, конечно, сразу упёрся.
Расчёта времени до предка для ветки из 4-х гаплотипов (из 7 всего).
Таблица попарных гендистанций для четвёрки прикреплена.
Расчёт усложнился (или упростился?) тем, что для семёрки время до предка уже рассчитано: медианное значение 7, диапазон времён 3780-4200 лет. Стало быть, любой результат внутри группы из 7 сэмплов не должен выбиваться из расчётных границ.
Для облегчения сделал таблицу времён под 17 маркеров, скорость 0,0021 (округлены до 10 лет):
Ген.разница 0 1 2 3 4 5 6 7 8 9
Макс.пик. Вероятности% 3,507 1,274 0,907 0,725 0,609 0,525 0,46 0,406 0,361 0,321
Перех.событий 1 29 60 93 128 165 207 252 302 360
Возраст по пик.вер. нет 440 900 1400 1920 2480 3100 3780 4530 5400
Перех.событий при кум.вер=0,5 19 48 79 113 149 188 231 278 330 388
Возраст по кум.вер.=0,5 290 720 1190 1700 2240 2820 3470 4200 4950 5820
Вот ген.разницы для четвёрки SX8127-SF5955-SG6312-SF1845: 2-3-3-5-6-7
Сэмплов чётное число, медианное значение отсутствует? Или можно выбрать между 3 и 5? Или взять среднее=4? Подождём с ответом и просмотрим тройки сэмплов внутри этой четвёрки.
Варианты: 8127-5955-6312: 2-3-3 медианное 3, среднее 3
8127-5955-1845: 2-5-7 медианное 5, среднее 5
8127-6312-1845: 3-5-6 медианное 5, среднее 5
5955-6312-1845: 3-6-7 медианное 6, среднее 5
По всей видимости, время до общего предка 4-х должно совпадать с максимальным временем в выборках из трёх сэмплов. По виду этих выборок, самый старый предок у 1845. Но для выборок с этим сэмплом медианные разные: 5-5 и 6. А нужно бы что-то одно. Выбрать по максимуму=6? Попробуем так, но далее проверим, как выглядит такой приём на серии выборок для самого старого гаплотипа из 7: SH5315.
Перебор вариантов троек, в которые входит 5315 даёт всего 15 вариантов. В 13 из них медианное 7 (как в общем расчёте). Но для 2-х вариантов, получается медианное 8:
5315-0667-1845 (6-8-9) и 5315-0667-8127 (7-8-8). Если взять 7, то расчёт укладывается в логику. Если взять 8, то по нашей табличке время (по пик.вер) будет 4530 лет (по кум.вер – ещё больше) и не вписывается в границы семёрки.
Похоже, слишком малые выборки дают не всегда удобные результаты.
Вопрос: как считать время до предка в микровыборке, если её медианное значение превышает медианное общей группы? А также, если в серии микровыборок с дальним предком медианные значения разнятся?