На Ваш взгляд, каким логично бы выглядел оптимальный чужой?
Среднеарифметические и модальные, чувствительны к выборке. То есть, нерепрезентативность выборки приведет к неправильному модалу, и как следствие к искажению дерева.
Чужие тоже могут быть разные. Например, один маркер в выборке может принимать значения 22, 23, 24. Если у "чужого" этот маркёр будет 23, то TNT построит дерево, в котором ближе к корню будут гаплотипы со значением маркера 23, а далее будут два отдельных ответвления, с мутациями 23-->22 и 23->24.
Представим что у "чужого", значение этого маркера 24, следовательно TNT, по максимальной парсимонии, построит дерево, с расположенной ближе к корню группой гаплотипов со значением нашего маркера 24, от которой отходит ветвь с мут 24->23, а затем от новой ветви ответвится еще одна ветвь с 23->22.
Это конечно упрощенный пример, с одним маркером). В реальности,
чем больше маркеров и гаплотипов в выборке, тем менее заметен эффект ошибочного значения маркера у "чужого". Причина я думаю ясна? TNT считает по всем значениям присутствующих в выборке маркеров, а не по одному.
Хотя есть зависимость и от других значений (веса, снипы и тд)
Например, у меня, при построении дерева R1a (~2500 67ми маркерных гаплотипа) смена "чужого" проходит незаметно для структуры всего дерева.
Встречается только одна проблема, если в выборке присутствуют гаплотипы, сильно удаленные от всех других гаплотипов, то TNT может путать места укоренения. Но это к данному случаю не имеет отношения)
Резюмируя, можно сказать следующее: оптимальным для "чужого" является восстановленный предковый гаплотип. При отсутствии такового, можно пробовать для "чужого" разнообразные "соседские" гаплотипы. Считать дерево. Смотреть результат. Делать выводы. И искать, искать, искать наиболее оптимальное решение))))
Все вышесказанное - сугубо мое мнение, основанное на личном опыте. Я никаким боком не математик. Поэтому готов выслушать мнения, отличные от моего.