Тема: Филогения. Распространенные заблуждения. (Прочитано 2667 раз)

Valery · « : 13 Август 2011, 11:55:25 »

Решил вести небольшую колонку, намеренно поместив ее в открытом доступе.

Valery · « **Ответ #1 :** 13 Август 2011, 12:50:56 »

Игорь Рожанский:

Цитировать

По последнему пункту хотелось бы предостеречь энтузиастов программ типа Нетворк, что рисуют красивые разветвленные деревья, внешне очень похожие на классические генеалогические. Нетворк - программа неплохая, если не ожидать от нее того, что она не может дать по определению. Если люди идут на балет, они же не ждут, что Одетта-Одилия выдаст соло на скрипке, а дирижер сделает 19 фуэте? Хотя кто знает laugh.gif

Так вот, задача этой программы - поиск кластеров, с наибольшей вероятностью восходящих к одному предку. Ее алгоритм основан на оптимизации сети, составленной из медиан, попарно соединяющих гаплотипы. В графическом представлении эти медианные точки внешне ассоциируются с портретами предков на семейном древе, что и сбивает с толку новичков. На деле это всего лишь математическая абстракция, часть алгоритма, не несущая никаких аналогий с гаплотипом, как реальным, так и реконструированным.

Следовательно, как и любой другой метод, Нетворк лишь позволяет с той или иной надежностью составить список родственных гаплотипов, с которыми в дальнейшем надо работать точно так же, как и со списками, составленными, например, по снипам. Всё остальное, включая датировки медианных точек, - "танцующий дирижер". Использование весов - это палка о двух концах. С одной стороны, веса помогают быстрее определиться со списками, с другой - загоняют эти списки в прокрустово ложе. Если параметр сходимости покажет, что такая выборка однородна, то проблем нет, если же он заметно отклонится от единицы (обычно в плюс), то очень трудно будет разобраться, кто же там чужой. Веса исказят реальную картину.

Вместо "Нетворк" я буду говорить "парсимония", хотя указанная программа вряд ли является идеальным представителем всего семейства.

Принципиальная мысль верна: парсимония является приближением к истине, хотя вероятностная составляющая в этом методе эксплицитно не выражена. В посте Рожанского я вижу два принципиальных недостатка, довольно тонких, но важных.

1. Главной целью филогенетических программ, в том числе парсимонистских, является не разбивка на приближенные кластера а построение истинного/близкого к истинному дерева с реконструкцией предковых гаплотипов. Это именно предки, реальный гаплотипы предков, плюс-минус. Если же в силу каких-то обстоятельств достоверная реконструкция невозможна, причину трудности следует искать прежде всего в недостатке данных а не в кривизне методы. Та же самая Филипка в некоторых моделях при неограниченном увеличении количества признаков приближается по своей точности к ML. Конечно, преждевременно распространять данный частный результат на все возможные ML-модели или парсимонистские метрики, кое-где может быть иначе, но большинство практически работающих специалистов признает положительное влияние увеличения количества анализируемых признаков на конечный результат

Если кратко, то конечная цель филогенетики - выдать как можно более полную историю мутаций, реконструировать всех внутренних "Адамов" и "Ев". Скажем, если в некоторой точке mt*L0 и mt*L1-6 разделились, хотелось бы знать как выглядели предковый гаплотип всего древа и предковые гаплотипы всех точек после указанного ветвления. В случае У-хромосомы ввиду большой скорости мутирования STR такая глубина реконструкции (на уровне первых Адамов всего человечества) маловероятна, но я например ничуть не сомневаюсь что на 600-700 STR локусах можно дойти до хорошей реконструкции предковых узлов существовавших 10000-20000 лет назад. Мы пока не знаем по какому закону будет расти функция ЧислоЛокусовНадобноеДляРеконструкции(ИнтересующийНасВозраст) но гигантский размер У-хромосомы дает полные основания для оптимизма. Можно ли надеяться что скажем все 600 признаков удастся надежно распространить на внутренние узлы? Конечно нет. На построенном дереве требуется запускать специальный софт собирающий различные варианты разметок (по алгоритму Санкоффа, который используют все парсимонистские программы) и отбросить те признаки которые дают максимум узлов размеченных несколькими разными способами. Наблюдения за эволюцией мтднк позволяют предположить что это неплохой способ.

2. Позволю себе высказать осторожные предположения почему недостает оптимизма главному филогенисту команды Родства

На мой взгляд, у перпендикулярных авторов проблема в недостатке количественных параметров оценки достоверности филогений. Для покрытия сего недостатка, понимая что как никак являются естественниками, они изобрели некий "параметр сходимости выборки к одному предку". Ни в коем случае не отрицая пользы данного метода, основанного на скоростях мутаций, хочу заметить что он состоит в очень туманных и неясных отношениях с традиционными, штатными способами оценки надежности филогении - с измерением расстояний между деревьями, оценками частот партиций, наконец с самым прямым методом - бутстрэпом по возмущенным выборкам. Возможно, я консервативный, но мне кажется разумнее иной подход, также использующий скорости мутаций - разработанный Вадимом Урасиным. А уже на основе его метода запуск бутстрэпа даст искомую оценку. И вообще - достаточно трудно анализировать подходы, не принимающие во внимание явным образом множественность возможных деревьев, вместо этого анализирующие только одно.

Я бы хотел увидеть статью Рожанского где бы "параметр сходимости" сравнивался с традиционными методами. И не надо говорить что У-хромосома есть нечто особенное и неведомое доселе науке. Аддитивные метрики изучаются филогенистами с 70х гг, другие составные части знания об У также имеют аналогии в науке и технике.

Alexander · « **Ответ #2 :** 15 Август 2011, 00:16:51 »

Цитата: Valery от 13 Август 2011, 12:50:56

Я бы хотел увидеть статью Рожанского где бы "параметр сходимости" сравнивался с традиционными методами.

Вопрос не ко мне, но сделаю небольшое уточнение.

Статья «Оценки сходимости выборки STR-филогении» с описанием методики подсчёта коэф.сходимости напечатана в Вестнике ДНК-генеалогии, т.3, №2, 2010 (февраль), стр.202. С помощью этого коэффициента производится оценка качества выборки, то есть даётся ответ на вопрос: сходится ли выборка с вычисленным базовым (модальным) гаплотипом к одному предку или таких предков несколько. Статья написана предельно просто и ясно. Формула подсчёта коэффициента тоже не сложна. Согласно методике, параметр сходимости выборки определяется как отношение времен до общего предка, рассчитанных по логарифмическому (из количества базовых гаплотипов) и линейному (по общему количеству мутаций) методам. В прикладной формуле это
К = ln(N0/N)/(M/N0),
где М - суммарное количество мутаций от базового гаплотипа, N0 - общее количество гаплотипов в выборке, N - количество немутировавших (= базовых) гаплотипов.

Так что желающие могут сами определить сходимость любой тестовой выборки. На случай затруднения, я могу вам подсчитать коэффициент.

Что до сравнения К с "известными" - вопрос очень интересный. Но определить указанные вами параметры по моему уровню не представляется возможным, не представляю, что это за зверь. Если они считаются в программе, например, ТНТ, я бы мог посмотреть.
Заинтересовавшись задачей, в свою очередь прошу вас дать ссылку, где почитать в том числе про метод Урасина. А лучше всего было бы, если бы вы для примера привели минивыборку с вашими параметрами, я бы подсчитал сходимость. И тогда можно было бы подумать над сравнением методов.
Жаль только такую полезную мысль вы поместили в раздел "Ошибки". Хотя сами же написали : "Ни в коем случае не отрицаю пользы данного метода".

Valery · « **Ответ #3 :** 15 Август 2011, 01:15:17 »

Александр, спасибо за обстоятельные комментарии.

Цитировать

Что до сравнения К с "известными" - вопрос очень интересный.

В каких-то частных классах случаев традиционные методы можно дополнить новыми специально разработанными оценками, конечно для STR можно найти массу таких. Дело в другом - в том что статья написана человеком, который игнорирует все что сделали до него. Не считает что надо тратить время на изучение азов науки.

Цитировать

где почитать в том числе про метод Урасина

Предиктор Вадима основан на этом же самом методе. Но вот в законченном виде статьи кажись нет.

Alexander · « **Ответ #4 :** 15 Август 2011, 11:48:28 »

Valery, подскажите, пожалуйста, есть ли возможность оценить какой-нибудь из параметров, о которых вы писали в программах (кроме Мурки, которая недоступна дилетанту). Например, в Филип, Нетворк или ТНТ. Тогда бы я сам разобрался.

АвторТема: Филогения. Распространенные заблуждения. (Прочитано 2667 раз)

Valery

Филогения. Распространенные заблуждения.

Valery

Re: Филогения. Распространенные заблуждения.

Alexander

Re: Филогения. Распространенные заблуждения.

Valery

Re: Филогения. Распространенные заблуждения.

Alexander

Re: Филогения. Распространенные заблуждения.