Для демонстрации недостаточности 17 локусов для надежной СТР-филогении я использовал следующие фичи Мурки:
1) построение набора субоптимальных (по стоимости) деревьев
2) частоты партиций исходных гаплотипов, соответствующих каждому ребру
3) вычисление расстояний Робинсона-Фоулдса между построенными деревьями
В аттаче см RDF-элайнмент по 30 исходным гаплотипам N проекта "Однофамильцы или Родственники", принадлежность их к N предсказана ув.
Mougley. Число различающихся гаплотипов 29, признаков 17. Для анализа была использована дискретная метрика соответствующая шаговой модели мутаций, равновесная (все веса =10), то есть такая что в ней например dist(10,11) = 10, dist(10,12)=20. Было проведено 4 эксперимента, каждый из которых состоял из случайного перевзвешивания признаков 50 раз, каждый раз с выполнением MJ-эвристики и MP обработки получившейся сети с учетом исходных весов; далее из 50 сетей извлекалось от 40 до 50% наиболее оптимальных по штейнеровской длине. Такие наиболее оптимальные наборы сетей были объединены и из них извлечено некоторое множество штейнеровских деревьев, объединение которых совпадает с объединением всех возможных штейнеровских деревьев. Был достигнута (суб)оптимальная стоимость дерева 660. Принципиальной разницы между результатами 4х экспериментов не обнаружилось, ниже приведены результаты одного из них.
Построено 12 штейнеровских деревьев (в других экспериментах - соотв. 12, 14 и 17), со средним расстоянием Р-Ф между ними 0.41+-0.19 что значительно превышает экспериментально выверенный порог средних расстояний в 0.15-0.2, за которым достоверная реконструкция истории мутаций STR невозможна. (PS при вычислении учитывались и смежные с листьями партиции так как допускались терминалы степени более 1, средняя степень терминалов оказалась 1.46).
Все 12 деревьев имели уникальные топологии. Средняя частота партиций в деревьях составила 0.85+-0.02, в то время как все реконструкции по STR, проанализированные автором, показывали значение >=0.95 всякий раз когда оказывались надежны и по другим признакам. Степень "типичности" партиций гаплотипов в дереве (то есть встречаемость их в других деревьях той же степени оптимальности) имеет большое значение при рассмотрении топологий; значительное число редких партиций в дереве свидетельствует о случайности его топологии, и в случае когда это характерно для всех оптимальных деревьев, можно говорить об отсутствии явного филогенетического "сигнала" в исходных данных. Ниже приведен пример одного из построенных деревьев, каждое ребро снабжено отметкой [mppart=...] частоты соответствующей партиции среди всех изученных MP-деревьев. В качестве корня выбран гаплотип минимизирующий дисперсию расстояний до всех засвидетельствованных гаплотипов (терминалов).
Ни одно из построенных деревьев не демонстрирует близкого родства однофамильцев, та же ситуация сохраняется и в деревьях полученных в других 3 экспериментах. В действительности следует ожидать обратного, учитывая небольшое расстояние между некоторыми из пар образцов.
Вывод: Парсимонистские филогении, основанные на 17 и менее локусах У-хромосомы, случайны и ненадежны. В действительности минимальное количество локусов, необходимое для построения надежных филогений, значительно выше, так как аналогичные результаты можно получить и для распространенных коммерческих наборов У-25 и У-37. Вопрос о надежности У-67 в настоящее время открыт, например метод, использованный выше, нередко приводит к построению надежной У-67 филогении.