АвторТема: Программа TNT.  (Прочитано 97741 раз)

0 Пользователей и 2 Гостей просматривают эту тему.

Оффлайн Alexander

  • Сообщений: 650
  • Рейтинг +73/-1
  • Y-ДНК: J2b
Re: Программа TNT.
« Ответ #375 : 28 Март 2012, 18:18:32 »
Так мы про веса, или про скорости?
Если про скорости, то моё мнение выше.
Если про веса - вопрос индивидуальный для филогенистов каждой группы.
Для N1c1 они необходимы.
Веса для маркеров разве не связаны со скоростями (частотой мутаций в маркерах)? - прямо (обратно) или через логарифм? Так понимаю, если частоты разные, то и веса разные.

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Сообщений: 5993
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Программа TNT.
« Ответ #376 : 28 Март 2012, 18:52:39 »
Веса для маркеров разве не связаны со скоростями (частотой мутаций в маркерах)? - прямо (обратно) или через логарифм? Так понимаю, если частоты разные, то и веса разные.
Все верно, насколько я понимаю, чем меньше скорость мутации в маркере, тем выше вес этого маркера.

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Сообщений: 5993
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Программа TNT.
« Ответ #377 : 28 Март 2012, 19:12:22 »
Процитирую уважаемого Овода:
Цитировать
прежде чем "занижать" быстрый маркер в помощью малого веса, необходимо убедиться, что гомоплазия по нему реально идёт. В Нетворке этом можно сделать по виду медианной сети. При гомоплазии маркера он будет включён в массу очевидных циклов, которые при его "занижении" разрешаются не в его пользу (цикл режется в месте более медленного маркера на нём". Но если циклов нет - маркер лучше не трогать.
 
В ТNT (поскольку там не строится сеть) - другой подход.
 
Тема весов - очень болезненна. Здесь должен быть тот же принцип, что с солью - чем меньше, тем - лучше. "Недосол - на столе, персол - на спине" - знаете такую поговорку?
Цитировать
Согласен с Маугли, что в рамках разных гаплогрупп подход к весам может быть различен. Они разветвились не так давно, чтобы набрать достаточную статистику мутаций, особенно - в корнях. В некоторых и средний по скорости маркер может быть "синапоморфичен", то есть - характерен для данной гаплогруппы. Причем в одной - один, в другой же - хоть той же скорости,  но совершенно иной. Поэтому их и нельзя взвешивать стандартно. Поэтому и осторожничаю.
 
И проверять их, конечно, можно и географией. Но ещё лучше - снипами.

И VVR:
Цитировать
Я давно говорил, что для каждого дерева должны быть свои веса. Правда меня за это покритиковали.Но тут, как правильно заметил Овод нужно подходить осторожно.
Мне кажется, только не смейтесь все сразу, что я нашёл методическую ошибку в расчётах весов Вертнера и в рассчётах поправки на возвратные мутации Адамова. Причём ошибки увеличиваются с возрастом. Надо конечно ещё проверить моё предположение. Сейчас немного не до этого.

От себя добавлю, применение стандартных весов для расчетов R1a, "разносит" некоторые подтвержденно родственные гаплотипы, достаточно далеко. За счет того, что между ними одна мутация, но зато в маркере с большим весом. Зато к ним прибило совершенно посторонние гаплотипы, с несколькими мутациями, но в "быстрых" маркерах.

Оффлайн Alexander

  • Сообщений: 650
  • Рейтинг +73/-1
  • Y-ДНК: J2b
Re: Программа TNT.
« Ответ #378 : 28 Март 2012, 19:27:16 »
VVR:
[Мне кажется... что я нашёл методическую ошибку в расчётах весов Вертнера и в рассчётах поправки на возвратные мутации Адамова. Причём ошибки увеличиваются с возрастом. Надо конечно ещё проверить моё предположение. Сейчас немного не до этого.
Собственно, с этого я и начал свой вопрос - частоты исправляются в соответствии с парами "отец-сын" (это то, о чём писал VVR). Стало быть и веса (для отдельных маркеров) изменятся.

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Сообщений: 5993
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Программа TNT.
« Ответ #379 : 28 Март 2012, 19:46:20 »
При запуске скрипта первым аргументом передаем ему путь к файлу с tnt-деревом, которое мы хотим переконвертировать в nexus-дерево.
После того как скрипт сконвертирует tnt-дерево в nexsus-дерево, надо открыть полученное дерево в текстовом редакторе (блокноте), и проконтролировать чтоб после каждого полученного дерева (строки) шла точка с запятой. В зависимости от некоторых данных, скрипт иногда ставит в конец строки просто запятую.
Спасибо. Но так как я не настолько продвинут, то просьба немного прояснить. - Понял так: мы сохраняем ТНТ дерево где-то в файле. Потом нужно скрипт запустить - это как? Или мы даём ему имя и впиываем имя в комстроку ТНТ? Где первый аргумент, в котором нужно указать путь к файлу? И где получаем нексус-результат - в отдельном файле или где-то в буфере ТНТ?
В результате действий, описанных уважаемым Kaa76, мы получаем файл, с названием my_tree_file.tree, содержащий дерево в формате TNT, включающее в себя теги, содержащие возраст и количество мутаций, расчитанные скриптом Овода.
Замечание.
Расширение файла для TNT дерева лучше сменить на .tntree. Так будет правильнее, и начинающие не будут путаться.
Дело в том, что получаемый ньюик, для программы FigTree, так же должен иметь расширение .tree.
Поэтому согласимся что файл TNT-дерева будет иметь расширение .TNTREE
а файл ньюик-дерева, для программы FigTree будет иметь расширение .TREE

После того как в результате описанных действий мы получили файл my_tree_file.tntree,
нам надо открыть командную строку.
Перейти в каталог, в котором находится файл my_tree_file.tntree. (В виндовс, это вроде команда DIR C:\path\to\dir)
В том же каталоге должен уже лежать мой скрипт для конвертации. (назовем его tnt2newick.py)
Запускаем скрипт конвертации на выполнение: python tnt2newick.py my_tree_file.tntree (Питон должен быть установлен.)
В результате работы скрипта конвертации, в директории с файлом my_tree_file.tntree появится файл my_tree_file.tntree.tree - это готовый файл для FigTree.

С учетом написанного, отвечаю:
1) "Потом нужно скрипт запустить - это как?"
в командной строке выполнить
python tnt2newick.py my_tree_file.tntree
2) "Где первый аргумент, в котором нужно указать путь к файлу?"
Выделил красным
python tnt2newick.py my_tree_file.tntree
3) "И где получаем нексус-результат - в отдельном файле или где-то в буфере ТНТ?"
В отдельном файле.
В результате работы скрипта конвертации, в директории с файлом my_tree_file.tntree появится файл my_tree_file.tntree.tree - это готовый файл для FigTree.

Будут вопросы - спрашивайте.

Оффлайн Alexander

  • Сообщений: 650
  • Рейтинг +73/-1
  • Y-ДНК: J2b
Re: Программа TNT.
« Ответ #380 : 28 Март 2012, 20:04:23 »
Спасибо за разъяснение, уважаемый Semargl. Собственно, понял суть, когда Вы написали, что действия проводятся в комстроке Виндовс. Поперву, полагал, что нужно что-то делать в буфере или комстроке ТНТ. Опробую потом, главное, принцип ясен.

Пользуясь случаем, позвольте ещё вопрос. По поводу цитаты выше - "масса очевидных циклов" в Нетворке - что имеется в виду? Которые "режутся в месте более медленного маркера". И каков подход в ТНТ, чтобы убедиться, что "гомополазия реально идёт"?

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Сообщений: 5993
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Программа TNT.
« Ответ #381 : 28 Март 2012, 20:15:15 »
Спасибо за разъяснение, уважаемый Semargl. Собственно, понял суть, когда Вы написали, что действия проводятся в комстроке Виндовс. Поперву, полагал, что нужно что-то делать в буфере или комстроке ТНТ. Опробую потом, главное, принцип ясен.

Пользуясь случаем, позвольте ещё вопрос. По поводу цитаты выше - "масса очевидных циклов" в Нетворке - что имеется в виду? Которые "режутся в месте более медленного маркера". И каков подход в ТНТ, чтобы убедиться, что "гомополазия реально идёт"?
Было бы хорошо, если на Ваш вопрос ответил автор поста, уважаемый Овод.

Я не работал в нетворке.

Оффлайн kaa76

  • Сообщений: 631
  • Страна: ru
  • Рейтинг +214/-0
  • Y-ДНК: R-L1029
  • мтДНК: U5a2a2
Re: Программа TNT.
« Ответ #382 : 30 Март 2012, 21:52:30 »
Правда, помню, что как-то срабатывали веса для снипов 999
Пробежался по ТНТшному мануалу. Не нашел ограничений по максимальному весу. Поэтому вполне возможно что и 999 и 99999 подойдут :)
А вот и нет, максимум вес может быть 1000.

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Сообщений: 5993
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Программа TNT.
« Ответ #383 : 30 Март 2012, 23:00:59 »
А вот и нет, максимум вес может быть 1000.
Поэтому и говорю: "вполне возможно" - ведь я использовал максимальный вес 99 )))
Дело в том что если не используешь веса для маркёров, то достаточно указать вес 1 для всех маркеров, а 2 для всех снипов. ;)
А веса в 1000, наверное остается для особых ценителей)

Оффлайн kaa76

  • Сообщений: 631
  • Страна: ru
  • Рейтинг +214/-0
  • Y-ДНК: R-L1029
  • мтДНК: U5a2a2
Re: Программа TNT.
« Ответ #384 : 31 Март 2012, 00:44:45 »
Дело в том что если не используешь веса для маркёров, то достаточно указать вес 1 для всех маркеров, а 2 для всех снипов. ;)
А веса в 1000, наверное остается для особых ценителей)
Решил я проверить на проекте Антов (R1a1a1g1*), есть ли разница в весе для снипов: 2 или 1000.
Оказывается есть, и большая:


Вес снипа L1029 = 2



Вес снипа L1029 = 1000




Как видим, семейство Rytel с отрицательным L1029 сразу легло отдельно, в случае с весом равным 1000.
« Последнее редактирование: 31 Март 2012, 00:51:00 от kaa76 »

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Сообщений: 5993
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Программа TNT.
« Ответ #385 : 02 Апрель 2012, 16:48:40 »
Уважаемый kaa76, ты прав. :)
Я был сбит с толку форматом матрицы для TNT, иногда сложно переключаться между разными типами программ/форматов данных.
По привычке принял матрицу для TNT за бинарную, хотя знаю что таковой она не является :) (mea maxima culpa)

Для меня вес не играет роль, и я всегда ставлю вес любого маркера - 1 (минимальное значение) и 99 для снипов.
В этом случае разницы между весами 1-99 и 1-999 не будет.

Вес снипа всегда должен превышать, по значению, сумму весов возможных мутаций по всем маркерам.
То есть, если мы возьмем вес маркера 1, а снипа 2, то TNT, при поиске оптимального строения ветвей, при выборе между, допустим, пятью мутациями (получается общий вес 5) и бэкмутацией в снипе (вес получается = 2) - отдаст предпочтение пути через бэкмутацию, так как этот путь является кратчайшим (имеет наименьший вес). По крайней мере, я так понимаю ситуацию.

Так что правда твоя.

Можно включить в вики совет - вес снипов всегда завышать по максимуму, и с учетом вышесказанного, стараться не использовать большие веса для маркёров, во избежание ситуации, когда сумма мутаций по маркерам превысит вес снипа.

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Сообщений: 5993
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Программа TNT.
« Ответ #386 : 03 Апрель 2012, 09:33:44 »
Небольшой совет.
Недавно пришлось строить дерево из 4900 99-маркерных гаплотипов.
При загрузке входного файла, с таким количеством гаплотипов, ТНТ будет вылетать с ошибкой.

Дабы избежать этого, надо после объявления матрицы состояний, перед командой xread, прописать следующую опцию:
mxram 64

Оффлайн Alexander

  • Сообщений: 650
  • Рейтинг +73/-1
  • Y-ДНК: J2b
Re: Программа TNT.
« Ответ #387 : 03 Апрель 2012, 09:53:52 »
Небольшой совет.
Недавно пришлось строить дерево из 4900 99-маркерных гаплотипов.При загрузке входного файла, с таким количеством гаплотипов, ТНТ будет вылетать с ошибкой.
Дабы избежать этого, надо после объявления матрицы состояний, перед командой xread, прописать следующую опцию:mxram 64
Спасибо, ценный совет. Интересно, какой лимит ТНТ на входной dataset?

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Сообщений: 5993
  • Страна: ru
  • Рейтинг +4191/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Программа TNT.
« Ответ #388 : 03 Апрель 2012, 10:01:27 »
Небольшой совет.
Недавно пришлось строить дерево из 4900 99-маркерных гаплотипов.При загрузке входного файла, с таким количеством гаплотипов, ТНТ будет вылетать с ошибкой.
Дабы избежать этого, надо после объявления матрицы состояний, перед командой xread, прописать следующую опцию:mxram 64
Спасибо, ценный совет. Интересно, какой лимит ТНТ на входной dataset?
Судя по названию версии - "No taxon limit"  - делаю вывод, что ограничение может быть только в объеме оперативной памяти и в вычислительной мощности компьютера.
Хотя кто его знает) не интересовался этим вопросом.

Оффлайн wbull

  • Сообщений: 444
  • Страна: ru
  • Рейтинг +53/-0
    • Rickman Surname Project
  • Y-ДНК: E1b1b1a1, Cluster : E-L618* , Geno 2.0: E-CTC10912
  • мтДНК: U5a1g
Re: Программа TNT.
« Ответ #389 : 07 Апрель 2012, 21:49:05 »
Вопросы по инструкции.Не совсем понятно формирование исходника в Excel.
Для Phylip я формировал таблицу типа
217   13   24   13   10   16   18   11   12   12   13   11   31   15   9   9   11
5029   13   26   13   10   16   17   11   12   13   13   11   30   15   9   9   11
5231   14   25   13   10   16   18   11   12   11   13   11   30   16   9   9   11
13865   14   24   13   10   16   18   11   12   11   13   11   29   15   8   9   11
14529   13   24   13   10   16   19   11   12   11   12   12   29   16   9   9   11
16961   13   24   13   10   16   17   11   12   12   13   11   31   15   9   9   11
17034   14   24   13   10   16   16   11   12   12   13   11   30   16   9   9   11
17216   13   22   14   10   16   17   11   12   12   14   11   31   16   9   9   11

В инструкции к TNTнаписано:
4.придаём уникальность именам гаплотипов:
I.вставляем новый третий столбец
II.в ячейке B2 даём ему формулу =СЦЕПИТЬ(B20;»_»;A20) и распространяем до последнего гаплотипа
Непонятно зачем вставляется новый третий столбец? B2 это ячейка второго, а не третьего столбца и почему именно B2, а не B1?
Зачем ей присваивается это формула и почему она относится  к ячейкам именно 20 строки?

Далее
5.уменьшаем значение аллели в случае превышения максимального значения над 32, т.е. Значение=Значение-Минимум+1
А что такое минимум?

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.