АвторТема: Краткий практический курс работы с Муркой  (Прочитано 16580 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн CenturionАвтор темы

  • 100% Earth (Solar System) genofond
  • Администратор
  • *****
  • Сообщений: 9548
  • Страна: ru
  • Рейтинг +571/-2
А нормально, что у меня Мурка считает уже минут 30...

А до этого за несколько сек. просчитывала.

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
То есть без CUTRDA так долго? Да, это плохо. Если ты ничего не делал с тех пор (не запускал заново) то плиз замени выгруженный здесь прежний nwlinktbl на новый с которым был долгий расчет - я гляну серьезно ли там участие CUTRDA. Сети размера до 500 ребер полученные из STR не могут быть такими сложными чтобы считаться полчаса.

Можешь еще попробовать версию 1.1.11 там должна быть правильная константа.

Еще можно заменить BNDREPEATS2 на BNDREPEATS3 это немного компенсирует отсутствие CUTRDA :)

Оффлайн CenturionАвтор темы

  • 100% Earth (Solar System) genofond
  • Администратор
  • *****
  • Сообщений: 9548
  • Страна: ru
  • Рейтинг +571/-2
Уже минут 45 а может и больше считает  ;D

Оффлайн CenturionАвтор темы

  • 100% Earth (Solar System) genofond
  • Администратор
  • *****
  • Сообщений: 9548
  • Страна: ru
  • Рейтинг +571/-2
Если ты ничего не делал с тех пор (не запускал заново) то плиз замени выгруженный здесь прежний nwlinktbl на новый с которым был долгий расчет - я гляну серьезно ли там участие CUTRDA. Сети размера до 500 ребер полученные из STR не могут быть такими сложными чтобы считаться полчаса.

Можешь еще попробовать версию 1.1.11 там должна быть правильная константа.

Еще можно заменить BNDREPEATS2 на BNDREPEATS3 это немного компенсирует отсутствие CUTRDA :)
Я уже загружал файл nwlinktbl - он что разный? не понимаю )
у меня не более 20 37-ми локусных гаплотипов... считает уже минут 45.

Очень много информации, Валер )) можно как-нибудь обойтись без скачивания и установки старой версии?

Оффлайн CenturionАвтор темы

  • 100% Earth (Solar System) genofond
  • Администратор
  • *****
  • Сообщений: 9548
  • Страна: ru
  • Рейтинг +571/-2
Ну вот... чувствую себя обманутым

после такого долгого расчета программа выдала ошибку 13378 Input file error  ;D

такие дела

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Я уже загружал файл nwlinktbl - он что разный? не понимаю )
у меня не более 20 37-ми локусных гаплотипов... считает уже минут 45.


разный потому что исполняется эвристика WPHEUR - там используются случайные числа. Два запуска могут давать результаты разные по оптимальности но всегда корректные.

1) Выгрузи плиз stp.

2) Далее, скажи что она писала эти 45 минут. Ключевые повторяющиеся фразы плиз. Надо понять это уже Штейнер или все еще MJ.

3) что писала перед Input file error? Скорее всего у тебя какой-то путь неверен, например / вместо \. Например не найден шаблон Graphviz'а.


Отлаживать запуск надо на простых опциях. Попробуй заменить RESCHECK на RESCHECK|TASKAPPROX с этой опцией можно наладить дело и потом убрать. Но плиз обязательно выгрузи stp до следующего запуска. Я таки подозреваю что отсутствие CUTRDA оказалось критично. То что с этой опцией занимает считанные секунды, без нее действительно может ехать полчаса а на больших данных даже сутки и вообще не приехать.


Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Исправлено

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
Дорогие друзья, хочу сделать несколько комментариев, в основном по практической части использования Мурки.

1. Сначала один чисто теоретический момент. Я заметил упоминание уважаемыми участниками параметра CUTRDA, введенного в последних версиях. Хочу предупредить, что логически он ни на что не влияет и не заслуживает чтобы его упоминали в каком-либо ином контексте, кроме как в плане скорости вычислений, на которую в ОБЩЕМ случае он и правда сильно влияет. Хотя есть масса выборок где до использования этой фичи процесс штейнеризации просто не доходит, проблема решается более простыми средствами. Но для филогении, повторяю, набор редукций значения не имеет - там важны только "логические" параметры -e -o и -n описанные выше, они определяют сколько деревьев искать, сливать ли их вместе и как выдавать результат. Остальное есть чистая оптимизация процесса.

2. Версия 1.1.13 постоянно обновляется. Хочу предупредить, что после введения CUTRDA старая опция CUTR в другом параметре более не используется и инорируется, а в последнем выложенном файле Мурка будет на нее ругаться. Я обычно поддерживаю обратную совместимость версий, например многие названия редукций изменились, но я поддерживаю старые названия наряду с новыми, поэтому Штейнеровские параметры указанные выше  (в двух вариантах) абсолютно валидны. Но в этот раз одна опция - CUTR - была полностью исключена за ненадобностью, пожалуйста проверьте что вы действительно используете CUTRDA и не используете CUTR.

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
3. Появилась новая опция для ГрафВиза - NOPOOL. Раньше она понималась только при экспорте в формат TREERDF а теперь есть и  для Графвиза. Она хороша при запуске Мурки с популяционными данными, где есть совпадающие гаплотипы. Без этой опции в каждом кружочке есть только имя одного произвольного гаплотипа из всего набора одинаковых (и общая частота этого набора в выборке, если вы указали TXFR). С NOPOOL в кружочке будут печататься имена всех гаплотипов и если указано TXFR то с частотой каждого (и уже без общей частоты). Эта фича повторяю хороша для анализа популяционных выборок из статей. Можно видеть народы, например

вместо

OSS01
(N=4)

будет

OSS01
OSS02
CHECH05 (N=2)

При этом частоты N=1 не выписываются чтобы не увеличивать размер файла. Однако без NOPOOL выписываются все частоты, даже 1 (и даже 0 у медиан но при условии что Вы разрешили печатать имена медиан опцией TXCNAMES - кому они нужны правда).

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
4. По просьбе популяционных генетиков (вот уж я редко прислушиваюсь к таким просьбам :) ) улучшена зависимость площади кружочков от частоты соответствующих гаплотипов. В принципе, если у Вас все частоты 1 то изменений особых не будет. Напоминаю также, что Вы можете руками настроить коэффициенты на которые умножается исходная высота и ширина кружочка, то есть то исходное значение, которое вычисляется исходя из частоты.

5. Также напоминаю, что зависимость размера кружочка от частоты включается опцией TXFRSZ которая у вас скорее всего установлена. Вы можете ее не использовать, тогда Графвиз сам посчитает размер достаточный чтобы разместить надписи в кружочках, но пожалуйста, прежде чем убирать TXFRSZ  убедитесь что в шаблонной файле (по умолчанию nwtpl.txt) у Вас не стоит

fixedsize=true

эту чтрочку лучше вообще убрать из шаблона, потому что в случае когда TXFRSZ  установлено мурка сама дописывает fixedsize=true а если TXFRSZ  нет то и fixedsize=true быть не должно.

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
6. Приглашаю уважаемых участников к обсуждению двух вопросов:

а) Что если сделать опцию для записи возраста внутри кружочка - не слишком ли их раздует ?

б) Есть ли в Графвизе возможность рисовать диаграмки вместо кружков, типа столько-то данного типа в такой популяции, столько в такой - и разным цветом? Я знаю что такое можно реализовать внутри прямоугольников (как records) но для подобных художеств в кружках определенно нужен плагин. Разумеется, если будет найден способ рисовать это, придется расширить входной формат RDF для записи принадлежности образца к популяциям. Можно за основу взять новый RDF фирмы FLUXUS либо перейти на Nexus формат.

Буду очень рад обсуждению этих вопросов.

Оффлайн mouglley

  • ...
  • Сообщений: 7105
  • Страна: hr
  • Рейтинг +434/-7
  • Я знаю, что познаю всё.
    • Записки Маугли
  • Y-ДНК: N1c1-L1025
  • мтДНК: J1c3
3. Появилась новая опция для ГрафВиза - NOPOOL.
Замечательная опция!
То есть нынче строка будет звучать где-то так:
Цитировать
-G "GraphViz; 1; ROOTPREFERRED|AGE|DISTL|CHNAMES|CHCHNG|TXNAMES|TXFR|TXFRSZ|TXCD|ROOTONLY|TREEONLY|NOPOOL;
?

Оффлайн Овод

  • Главный модератор
  • *****
  • Сообщений: 1769
  • Рейтинг +390/-3
  • Omnia mea mecum porto
  • Y-ДНК: R1a-M198
  • мтДНК: U4a
Ответ на вопрос а) для меня ясен - возраст нужно указывать. Другое дело - в каком формате - в годах, поколениях или в количестве мутаций (ро). А лучше всего ввести параметр - указывать ли возраст и в каком формате. Тогда те, кому это не надо могли бы сэкономить на размере кружка.

Оффлайн mouglley

  • ...
  • Сообщений: 7105
  • Страна: hr
  • Рейтинг +434/-7
  • Я знаю, что познаю всё.
    • Записки Маугли
  • Y-ДНК: N1c1-L1025
  • мтДНК: J1c3
4. По просьбе популяционных генетиков (вот уж я редко прислушиваюсь к таким просьбам :) ) улучшена зависимость площади кружочков от частоты соответствующих гаплотипов. В принципе, если у Вас все частоты 1 то изменений особых не будет. Напоминаю также, что Вы можете руками настроить коэффициенты на которые умножается исходная высота и ширина кружочка, то есть то исходное значение, которое вычисляется исходя из частоты.
Руками настраиваю.
А в каком месте установить, что бы, например, кружочек с двумя гаплотипами был в двое больше, чем с одним гаплотипом?

Оффлайн mouglley

  • ...
  • Сообщений: 7105
  • Страна: hr
  • Рейтинг +434/-7
  • Я знаю, что познаю всё.
    • Записки Маугли
  • Y-ДНК: N1c1-L1025
  • мтДНК: J1c3
5. Также напоминаю, что зависимость размера кружочка от частоты включается опцией TXFRSZ которая у вас скорее всего установлена. Вы можете ее не использовать, тогда Графвиз сам посчитает размер достаточный чтобы разместить надписи в кружочках, но пожалуйста, прежде чем убирать TXFRSZ  убедитесь что в шаблонной файле (по умолчанию nwtpl.txt) у Вас не стоит

fixedsize=true

эту чтрочку лучше вообще убрать из шаблона, потому что в случае когда TXFRSZ  установлено мурка сама дописывает fixedsize=true а если TXFRSZ  нет то и fixedsize=true быть не должно.
Я так понимаю, что параметр TXFRSZ ( в каком месте устанавливается, уточните, пожалуйста) заменяет параметр, прописанный в nwtpl.txt?
Или он что-то добавляет?

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.