Игорь Рожанский:
По последнему пункту хотелось бы предостеречь энтузиастов программ типа Нетворк, что рисуют красивые разветвленные деревья, внешне очень похожие на классические генеалогические. Нетворк - программа неплохая, если не ожидать от нее того, что она не может дать по определению. Если люди идут на балет, они же не ждут, что Одетта-Одилия выдаст соло на скрипке, а дирижер сделает 19 фуэте? Хотя кто знает laugh.gif
Так вот, задача этой программы - поиск кластеров, с наибольшей вероятностью восходящих к одному предку. Ее алгоритм основан на оптимизации сети, составленной из медиан, попарно соединяющих гаплотипы. В графическом представлении эти медианные точки внешне ассоциируются с портретами предков на семейном древе, что и сбивает с толку новичков. На деле это всего лишь математическая абстракция, часть алгоритма, не несущая никаких аналогий с гаплотипом, как реальным, так и реконструированным.
Следовательно, как и любой другой метод, Нетворк лишь позволяет с той или иной надежностью составить список родственных гаплотипов, с которыми в дальнейшем надо работать точно так же, как и со списками, составленными, например, по снипам. Всё остальное, включая датировки медианных точек, - "танцующий дирижер". Использование весов - это палка о двух концах. С одной стороны, веса помогают быстрее определиться со списками, с другой - загоняют эти списки в прокрустово ложе. Если параметр сходимости покажет, что такая выборка однородна, то проблем нет, если же он заметно отклонится от единицы (обычно в плюс), то очень трудно будет разобраться, кто же там чужой. Веса исказят реальную картину.
Вместо "Нетворк" я буду говорить "парсимония", хотя указанная программа вряд ли является идеальным представителем всего семейства.
Принципиальная мысль верна: парсимония является приближением к истине, хотя вероятностная составляющая в этом методе эксплицитно не выражена. В посте Рожанского я вижу два принципиальных недостатка, довольно тонких, но важных.
1. Главной целью филогенетических программ, в том числе парсимонистских, является не разбивка на приближенные кластера а построение истинного/близкого к истинному дерева
с реконструкцией предковых гаплотипов. Это именно предки, реальный гаплотипы предков, плюс-минус. Если же в силу каких-то обстоятельств достоверная реконструкция невозможна, причину трудности следует искать прежде всего в недостатке данных а не в кривизне методы. Та же самая Филипка в некоторых моделях при неограниченном увеличении количества признаков приближается по своей точности к ML. Конечно, преждевременно распространять данный частный результат на все возможные ML-модели или парсимонистские метрики, кое-где может быть иначе, но большинство практически работающих специалистов признает положительное влияние увеличения количества анализируемых признаков на конечный результат
Если кратко, то конечная цель филогенетики - выдать как можно более полную историю мутаций, реконструировать всех внутренних "Адамов" и "Ев". Скажем, если в некоторой точке mt*L0 и mt*L1-6 разделились, хотелось бы знать как выглядели предковый гаплотип всего древа и предковые гаплотипы всех точек после указанного ветвления. В случае У-хромосомы ввиду большой скорости мутирования STR такая глубина реконструкции (на уровне первых Адамов всего человечества) маловероятна, но я например ничуть не сомневаюсь что на 600-700 STR локусах можно дойти до хорошей реконструкции предковых узлов существовавших 10000-20000 лет назад. Мы пока не знаем по какому закону будет расти функция ЧислоЛокусовНадобноеДляРеконструкции(ИнтересующийНасВозраст) но гигантский размер У-хромосомы дает полные основания для оптимизма. Можно ли надеяться что скажем все 600 признаков удастся надежно распространить на внутренние узлы? Конечно нет. На построенном дереве требуется запускать специальный софт собирающий различные варианты разметок (по алгоритму Санкоффа, который используют все парсимонистские программы) и
отбросить те признаки которые дают максимум узлов размеченных несколькими разными способами. Наблюдения за эволюцией мтднк позволяют предположить что это неплохой способ.
2. Позволю себе высказать осторожные предположения почему недостает оптимизма главному филогенисту команды Родства
На мой взгляд, у перпендикулярных авторов проблема в недостатке количественных параметров оценки достоверности филогений. Для покрытия сего недостатка, понимая что как никак являются естественниками, они изобрели некий "параметр сходимости выборки к одному предку". Ни в коем случае не отрицая пользы данного метода, основанного на скоростях мутаций, хочу заметить что он состоит в очень туманных и неясных отношениях с традиционными, штатными способами оценки надежности филогении - с измерением расстояний между деревьями, оценками частот партиций, наконец с самым прямым методом - бутстрэпом по возмущенным выборкам. Возможно, я консервативный, но мне кажется разумнее иной подход,
также использующий скорости мутаций - разработанный Вадимом Урасиным. А уже на основе его метода запуск бутстрэпа даст искомую оценку. И вообще - достаточно трудно анализировать подходы, не принимающие во внимание явным образом
множественность возможных деревьев, вместо этого анализирующие только одно.
Я бы хотел увидеть статью Рожанского где бы "параметр сходимости" сравнивался с традиционными методами. И не надо говорить что У-хромосома есть нечто особенное и неведомое доселе науке. Аддитивные метрики изучаются филогенистами с 70х гг, другие составные части знания об У также имеют аналогии в науке и технике.