АвторТема: Построение деревьев на коммерческой основе  (Прочитано 7222 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн FarroukhАвтор темы

  • Maternal Y-DNA: R1b-BY124371
  • ...
  • Сообщений: 17188
  • Страна: az
  • Рейтинг +5965/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Мною готовится ряд статей в RJGG на тему миграций языков и гаплогрупп. Однако одни только лингвистические рассуждения, и без того мало понимаемые большинством читателей, не подкреплённые филогенетическими построениями в данном контексте абсолютно бесполезны. Очевидно, что построение деревьев - важнейший момент в статьях подобного рода.

В качестве выхода есть возможность строить деревья по алгоритму Phylip-->MEGA, но получающиеся древа не несут полезной хронолгической информации, искажая сроки в несколько раз. Программа MURKA, находящаяся в свободном доступе, пока далека от возможности использования её рядовым юзером.

Навыками построения деревьев в MURKA владеют единицы. Возможности даже абсолютно альтруистического человека имеют известные ограничения. Тем более, что непрекращающиеся чуть ли не ежечасные просьбы форумчан построить деревья, наваливающиеся как ком, имеют тенденцию только увеличиваться.

В этой связи у меня предложение к знатокам MURKA: может, имеет смысл перейти к построению деревьев за деньги? Готов стать первым клиентом. Кроме шуток.

P. S. Одному мне реально нужно около 10 деревьев, из-за чего вынужден динамить ребят из RJGG. Может, договоримся? ;)   

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Re: Построение деревьев на коммерческой основе
« Ответ #1 : 24 Октябрь 2009, 23:14:56 »
Фаррух, Вы подняли интересную тему. Но если честно, мне лично, например, было бы стыдно требовать деньги за построение деревьев, качество которых меня не удовлетворяет.Мой опыт построения деревьев (он, правда, не такой большой как у ув.Маугли) показыввает, что эти деревья пока еще очень далеко от высокой степени достоверности. И это вызвано не качеством используемого ПО, а скорее отустствием или, вернее, размытостью критериев оценки достоверности деревьев.

Оффлайн FarroukhАвтор темы

  • Maternal Y-DNA: R1b-BY124371
  • ...
  • Сообщений: 17188
  • Страна: az
  • Рейтинг +5965/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Re: Построение деревьев на коммерческой основе
« Ответ #2 : 24 Октябрь 2009, 23:22:09 »
Вадим, ваше мнение вполне понятно. Но Мурка всё равно более достоверна, чем применяемый мною филипо-меговский метод. Маугли и вы умеете строить деревья. Но у вас обоих, как ни странно, тоже всего 24 часа в сутках. Да плюс ещё семья/дети. Я всё это понимаю. Но хотелось бы сдвинуть дело с мёртвой точки.

Оффлайн mouglley

  • ...
  • Сообщений: 7105
  • Страна: hr
  • Рейтинг +434/-7
  • Я знаю, что познаю всё.
    • Записки Маугли
  • Y-ДНК: N1c1-L1025
  • мтДНК: J1c3
Re: Построение деревьев на коммерческой основе
« Ответ #3 : 24 Октябрь 2009, 23:26:27 »
Вот-вот, хоть кого-нибудь кроме нас (у меня, честно, каждый час расписан) таким методом сможете заинтересовать в изучении Мурки.

Оффлайн FarroukhАвтор темы

  • Maternal Y-DNA: R1b-BY124371
  • ...
  • Сообщений: 17188
  • Страна: az
  • Рейтинг +5965/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Re: Построение деревьев на коммерческой основе
« Ответ #4 : 24 Октябрь 2009, 23:36:01 »
Маугли, я бы сам был бы рад её освоить, но от фраз вроде
Цитировать
Метрика без бинаризации - произвольная дискретная метрика. Она задается RDF-файлом и матрицей состояний. Если величины аллелей (ака состояний) лежат в диапазоне 0-50 (что скорее всего так), то матрица нам и не нужна так как уже поставляется в дистрибутиве в папке data/metric.
у меня всё опадает...

"Ставлю бутылку"

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Re: Построение деревьев на коммерческой основе
« Ответ #5 : 24 Октябрь 2009, 23:50:03 »
Маугли, я бы сам был бы рад её освоить, но от фраз вроде
Цитировать
Метрика без бинаризации - произвольная дискретная метрика. Она задается RDF-файлом и матрицей состояний. Если величины аллелей (ака состояний) лежат в диапазоне 0-50 (что скорее всего так), то матрица нам и не нужна так как уже поставляется в дистрибутиве в папке data/metric.
у меня всё опадает...

Валерий выражается как настоящий профессионал. :) Но на самом деле, там все не так уж и сложно.

Оффлайн FarroukhАвтор темы

  • Maternal Y-DNA: R1b-BY124371
  • ...
  • Сообщений: 17188
  • Страна: az
  • Рейтинг +5965/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Re: Построение деревьев на коммерческой основе
« Ответ #6 : 24 Октябрь 2009, 23:59:21 »
Вадим, можно ли всё это изложить простым языком, примерно как Роман изложил здесь?

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Re: Построение деревьев на коммерческой основе
« Ответ #7 : 25 Октябрь 2009, 00:14:19 »
Вадим, ваше мнение вполне понятно. Но Мурка всё равно более достоверна, чем применяемый мною филипо-меговский метод. Маугли и вы умеете строить деревья. Но у вас обоих, как ни странно, тоже всего 24 часа в сутках. Да плюс ещё семья/дети. Я всё это понимаю. Но хотелось бы сдвинуть дело с мёртвой точки.

Ув. Фаррух, давайте сразу быка за рога. Немного теории.

Мурка будучи парсимонистской программой, не более достоверна, чем парсимония. Далее, на отдельных классах задач парсимония с помощью методов Мурки работает быстрее/точне чем классическая парсимония (Мега, ТНТ идт) а на других - межленнее/хуже. То есть внутри парсимонии тоже есть градации и приоритеты чем что лучше строить, и Мурка далеко не везде хороша. Например, на STR (высокая гомоплазия) большие выборки ТНТ решает много лучше, и только на малых Мурка приближается к ней по качеству. На снипах (низкая гомоплазия) методы реализованные в Мурке в среднем работают лучше.

Теперь про то когда достоверна сама парсимония. Идеальным методом решения задач является Maximum Likehood а не парсимония. Но вычислительная трудность этого метода столь велика что проблему нельзя решить точно в принципе. Поэтому применяют либо приближенные методы либо очень хитрый трюк. А именно, для некоторых классов задач с помощью теории марковских процессов доказывают что парсимонистское решение не хуже чем Maximum Likehood-решение. И для таких задач применяют парсимонию, так как она позволит найти оптимальное Likehood-решение. Для STR филогении корректность такой замены еще никем не доказана.

Должен Вам также сказать, что для немалого класса моделей показано что при бесконечном увеличении числа маркеров, разница между филипкиным решением, и ML-решением стремится к нулю. Так что можно забросить генеалоги эдак на пару лет, а потом приняться снова, когда будут рутинно делать по 200 локусов - и вперед с филипкой :)

Оффлайн FarroukhАвтор темы

  • Maternal Y-DNA: R1b-BY124371
  • ...
  • Сообщений: 17188
  • Страна: az
  • Рейтинг +5965/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Re: Построение деревьев на коммерческой основе
« Ответ #8 : 25 Октябрь 2009, 00:17:26 »
Валерий, верно ли я понимаю, что чем больше в выборке "длинномаркерных" гаплотипов, тем выше вероятность совпадения деревьев в мурке и меге?

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Re: Построение деревьев на коммерческой основе
« Ответ #9 : 25 Октябрь 2009, 00:19:16 »
Валерий, верно ли я понимаю, что чем больше в выборке "длинномаркерных" гаплотипов, тем выше вероятность совпадения деревьев в мурке и меге?

в смысле чем больше длина гаплотипа? Именно так. Но речь об асимптотике, я не могу обещать что Вы увидите это приближение при числе локусов скажем меньше 100.

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Феня
« Ответ #10 : 25 Октябрь 2009, 00:29:07 »
Маугли, я бы сам был бы рад её освоить, но от фраз вроде
Цитировать
Метрика без бинаризации - произвольная дискретная метрика. Она задается RDF-файлом и матрицей состояний. Если величины аллелей (ака состояний) лежат в диапазоне 0-50 (что скорее всего так), то матрица нам и не нужна так как уже поставляется в дистрибутиве в папке data/metric.
у меня всё опадает...

"Ставлю бутылку"


Я просто ленился расписывать все нормально. Скажем, в пособии к PAUP все объясняется без терминов из математики. То есть на фене. Но тут есть не меньшая проблема. Филогенетическая феня разная у разных авторов. Например вместо той же метрики Вы можете прочитать у разных авторов:

 - Sankoff characters
 - Inequidistant alphabet
 - Stepwise models
 - Stepmatrices

и наверное еще пяток синонимов. Я выбрал слово с наибольшей вероятностью знакомое людям не изучавшим математическую филогенетику специально. Если еще точнее, речь идет о конечном метрическом пространстве. Ну, самый внимательный наблюдатель может заметить, что о псевдометрическом, но у меня от таких терминов уже отваливаются уши.

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Re: Феня
« Ответ #11 : 25 Октябрь 2009, 00:37:42 »
Маугли, я бы сам был бы рад её освоить, но от фраз вроде
Цитировать
Метрика без бинаризации - произвольная дискретная метрика. Она задается RDF-файлом и матрицей состояний. Если величины аллелей (ака состояний) лежат в диапазоне 0-50 (что скорее всего так), то матрица нам и не нужна так как уже поставляется в дистрибутиве в папке data/metric.
у меня всё опадает...

"Ставлю бутылку"


Я просто ленился расписывать все нормально. Скажем, в пособии к PAUP все объясняется без терминов из математики. То есть на фене. Но тут есть не меньшая проблема. Филогенетическая феня разная у разных авторов. Например вместо той же метрики Вы можете прочитать у разных авторов:

 - Sankoff characters
 - Inequidistant alphabet
 - Stepwise models
 - Stepmatrices

и наверное еще пяток синонимов. Я выбрал слово с наибольшей вероятностью знакомое людям не изучавшим математическую филогенетику специально. Если еще точнее, речь идет о конечном метрическом пространстве. Ну, самый внимательный наблюдатель может заметить, что о псевдометрическом, но у меня от таких терминов уже отваливаются уши.

Валерий, когда Вы в последний раз обновляли мануал к Мурке? Большинство новых параметров просто не задокументировано. :)

Оффлайн FarroukhАвтор темы

  • Maternal Y-DNA: R1b-BY124371
  • ...
  • Сообщений: 17188
  • Страна: az
  • Рейтинг +5965/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Re: Построение деревьев на коммерческой основе
« Ответ #12 : 25 Октябрь 2009, 00:44:19 »
Валерий, поступлю хитро: допустим, в вашем распоряжении выборка из 67-маркерных гаплотипов (см. прицеп). Могли бы вы построить для неё древо, делая скриншот каждого шага с описанием действий и вывесив всё это здесь?
Дальше мы уже по аналогии с вашим примером будем юзать Мурку и сами строить деревья, пусть и далёкие от совершенства.

Оффлайн Alesh

  • Сообщений: 903
  • Рейтинг +80/-1
Re: Построение деревьев на коммерческой основе
« Ответ #13 : 25 Октябрь 2009, 00:58:21 »
Даешь Мурку чайникам! ;)
Присоединяюсь к предложению Фарры.

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Re: Построение деревьев на коммерческой основе
« Ответ #14 : 25 Октябрь 2009, 01:07:21 »
Валерий, поступлю хитро: допустим, в вашем распоряжении выборка из 67-маркерных гаплотипов (см. прицеп). Могли бы вы построить для неё древо, делая скриншот каждого шага с описанием действий и вывесив всё это здесь?
Дальше мы уже по аналогии с вашим примером будем юзать Мурку и сами строить деревья, пусть и далёкие от совершенства.


как-нибудь попробую

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.