Учитывая сепаратность терского казачества от финно-карел, таки предполагаю параллельность замены у финнов и в вашей линии. Это случай гомоплазии. Альтернативная версия слишком маловероятна: сильная недооцененность возраста V1a1 с общим предком всей линии 16257 скажем 1000 лет назад. Я бы исключил.
Виноват, ещё один вопрос. Перечитал и хочу уточнить - почему как (маловероятную) альтернативу гомоплазии вы рассматриваете недооценённый возраст V1a1? Что имеется в виду? Речь о том, что мутации субкладов V1a1 и V1a1c (16257T) произошли на самом деле существенно раньше, чем оценивает YFull, и потому субклады успели достаточно широко распространиться? Или я не так понял?
Но! это не отменяет возможности некоторой недооценки возраста любой молодой клады у YFull. Просто мт - очень короткая молекула, с ней потоньше надо Возможно, расчеты возраста придется пересмотреть в случае сильного дисбаланса широко- и слабопредставленных клад. Финны по количеству сиквенсов - бомба, которую может не выдержать метод расчета возраста, не масштабированный на этот случай. Много одинаковых сиквенсов сильно снижают возраст. Тут нужен более сложный сценарий, байесовский. Ро-статистика не катит.
Если можно, немного подробнее про методы построения деревьев и оценки возраста.
Насколько я помню, метод максимальной парсимонии (или экономии) - это поиск такой топологии, которая предполагает наименьшее количество мутаций. Уже в 2005 году (когда я писал диплом) он вроде как считался устаревшим из-за того, что игнорирует те самые возвратные мутации (может, и по другим причинам). Мы в простых задачах использовали алгоритмы neighbour-joining или UPGMA - это когда соединяют два самых близких образца, потом следующие самые близкие и т.д. Но это наверняка слишком грубо, так как нужно много отличий между последовательностями
Ро-статистика - это среднее число мутаций, накопившееся в пределах кластера относительно предкового гаплотипа. Соответственно, если мы недостаточно точно знаем предковый гаплотип либо если число мутаций внутри кластера слишком маленькое - достоверность оценки будет страдать.
А байесовский подход предполагает, что мы перебираем все возможные топологии (которые априорно равны по вероятности) и считаем для каждого правдоподобие (то есть, насколько вероятно получить наблюдаемые данные при таком родстве между образцами, которое соответствует выбранной топологии). И дальше оптимальными считаются топологии с максимальным правдоподобием (или с наибольшей апостериорной вероятностью).
Я правильно понимаю? Тогда вопрос - в чём конкретно для мтДНК преимущество байесовского подхода? И каким путём здесь мы получаем оценку возраста?
Ещё момент - для оценки достоверности полученных топологий часто используют "бутстреп"-анализ. Во всяком случае, мы так делали (правда, это были сиквенсы вирусной РНК). Если не ошибаюсь, часть сайтов в последовательностях мутируется случайным (или не совсем) образом и мы получаем выборку, похожую на нашу, но немного испорченную. И таких искусственных выборок делают, допустим, 1000. А дальше смотрят для конкретного узла топологии - в скольких выборках из 1000 он сохранился. То есть, насколько каждый узел устойчив к небольшим изменениям первичных данных.
Но я вроде не встречал, чтобы такой подход применяли к мтДНК.
Прошу прощения, что так много вопросов.
З.Ы.: почитал вот тут
https://forum.molgen.org/index.php?topic=8181.msg539361#msg539361 и понял, что не отличаю maximum likelihood и байесовский подход. То, что я выше описал - это, наверное, ML