Распакуйте Мурку на жёсткий диск в отдельную папку. Например: D:\Murka.
Начинаем готовить файл с гаплотипами. Допустим, у вас есть экселевский файл с выборкой из 67-маркёрных гаплотипов в формате FTDNA. Типа такого:
Важно: для обозначения гаплотипов используйте только латинские буквы и/или цифры! Ivanov вместо Иванов и т. п.! Не используйте пробелы в обозначении гаплотипов! файл не должен содержать пробелов! Помимо того, что фамилии поциентов должны быть на стандартной латинице и без пробелов, они ещё и не должны повторяться. То есть если у вас в выборке три Ивановых, то их надо обозначить как Ivanov1, Ivanov2, Ivanov3. Или как-то иначе, как фантазия подскажет. Главное, чтобы не было двух одинаковых обозначений.
Допустим, вы сваяли файл с гаплотипами как надо. Чтобы Мурка могла обработать ваши унылые гаплотипы можно поступить двояко.
Вариант первый, самый лёгкий. Если у вас есть под рукой интернет, то зайдите на
этот сайт.
Скопируйте ваши гаплотипы и их обозначения в соответствующее поле, выставите настройки согласно этому рисунку и нажмите кнопку Execute:
В появившемся новом окне под таблицей будет форма с гаплотипами в формате ych:
Скопируйте содержимое этой формы в текстовый файл. Затем удалите оттуда все строки, лежащие над фамилией/обозначением первого гаплотипа. В нашем случае это Ivanov. После этого вставьте над первым гаплотипом три строки. В первой – обозначения маркёров, во второй – их веса, третья строка остаётся пустой. Первую и вторую строку можно взять прям отсюда:
393,390,D19,391,385a,385b,426,388,439,3891,392,3892,458,459a,459b,455,454,447,437,448,449,464a,464b,464c,464d,460,GATA,YCAa,YCAb,456,607,576,570,CDYa,CDYb,442,438,531,578,395a,395b,590,537,641,472,406,511,425,413a,413b,557,594,436,490,534,450,444,481,520,446,617,568,487,572,640,492,565
10,6,7,9,6,4,99,14,5,7,21,4,3,19,13,51,30,4,18,10,2,6,5,5,5,6,7,13,9,4,6,2,2,2,2,5,19,23,58,27,19,83,10,29,99,7,9,11,5,6,4,21,71,45,3,50,4,3,6,4,13,17,10,11,30,28,18
Короче говоря, у вас должно получиться вот это:
Сохраняем текстовый файл, например Haplotypes.txt, меняем его расширение с Haplotypes.txt на Haplotypes.ych и закидываем его сюды: D:\Murka\data\seq
Если под рукой интернета нет, то придётся немного помучиться.
Вариант второй, мозгодолбательный. Возьмите ваш экселевский файл с гаплотипами и сделайте как на картинке:
1) В первой строке идёт обозначение маркёров – 393, 390, D19, 391, 385a и т. д. Маркеры обозначайте так, как показано на картинке (т. е. 389-I как 3891 и т. д.).
2) Во второй строке скорости для каждого маркёра соответственно – 10,6,7,9,6,
Готовый файл с обозначениями маркёров и их скоростями взять
отседова3) В третьей строке и далее – собственно поциенты со своими фамилиями (номерами китов) и их гаплотипы.
А теперь всю эту кучу надо перераспределить так, как показано на следующей картинке:
Иначе говоря, в первой строке (начиная с ячейки А1) идёт обозначение маркёров – 393, 390, D19, 391, 385a и т. д.
Во второй строке (начиная с ячейки А2) скорости для каждого маркёра соответственно – 10,6,7,9,6 и т. д.
Третью строку оставляем пустой.
В четвёртой строке (ячейка А4) – фамилия поциента.
В пятой (начиная с ячейки А5) – его гаплотип.
В шестой строке в первой ячейке ставится единица. В седьмой – опять фамилия поциента (ячейка А7 соответственно), в восьмой – его гаплотип (начиная с ячейки А8), в девятой – единица. И так далее до конца. После последнего гаплотипа на следующей строке также ставим единицу.
Вы, разумеется, можете автоматизировать этот процесс – всё зависит от ваших знаний Экселя.
После этого сохраняем всё это хозяйство как текстовый файл формата Юникод и закрываем его:
Открываем получившийся текстовый файл в Ворде, включив для удобства отображение непечатаемых символов:
После этого с помощью функции
Правка-->Заменить заменяем все знаки табуляции запятыми и получаем что-то вроде вот этого:
Затем заменяем подряд идущие две запятые ни на что (т. е. фактически даём команду удалять подряд идущие запятые):
Далее заменяем запятую и знак абзаца на знак абзаца:
В итоге получаем нечто подобное:
Сохраняем текстовый файл, например Haplotypes.txt, меняем его расширение с Haplotypes.txt на Haplotypes.ych и закидываем его сюды: D:\Murka\data\seq
Ещё раз повторю: вы можете подготовить этот файл иначе, всё зависит от ваших познаний вордо-экселя или наличия интернета. Просто в результате надо получить текстовый файл в том оформлении, что на скриншоте и сменить его расширение на *.ych.
Важно: этот файл не должен содержать пробелов! Не используйте пробелы в обозначении гаплотипов! Используйте только латинские буквы!Итак, ваш ych-файл с гаплотипами готов.
После этого в папке D:\Murka находим файл runych2rdf.bat, выделяем его, правая кнопка мыши-->Изменить. Открыв файл в блокноте, вписываем в соответствующие места имя нашего файла "data\seq\ Haplotypes.ych" -o "data\seq\Haplotypes.rdf". Сохраняем.
Далее двойным кликом запускаете файл runych2rdf.bat. Если всё сделано правильно, то в папке D:\Murka\data\seq появится файл Haplotypes.rdf.
После этого по аналогии изменяете файл runmjstr.bat (он лежит в корневой папке) и прописываете название своего rdf-файла (Haplotypes.rdf).
Запускаете runmjstr.bat для расчёта.
По окончании расчёта запускаете ранее установленную программу Graphviz, в которой открываете файл nw_mp_1.dot, лежащий в директории d:\Murka\nw\viz.
После открытия файла нажмите пиктрограмму Settings и выставите настройки Layout Engine: dot. Настройки Output file type и Output file name – на ваше усмотрение.
Далее жмём ОК. Ваше древо готово.
Далее идёте ставить плюсик Маугли, который рассказал и показал автору этих строк принцип работы. Ну, а автор этих строк изложил его тут.