Так как искать информацию, разбросанную по разным темам довольно сложно, я решил собрать полезные ссылки в одном месте. По мере возможности буду добавлять, поскольку за раз все охватить тяжело.
FAQ (часто задаваемые вопросы и ответы на них) по аутосомным калькуляторамОболочка для запуска аутосомных калькуляторов без установки R и работы с командной строкой:
http://www.y-str.org/tools/diy-dodecad-wrapper/На текущий момент в программу встроены только калькуляторы проекта DODECAD (Диенек). Запустите программу, выберите свой файл raw data (предварительно разархивировав) и нажмите Calculate.
Update Пытался запускать у себя, нормально так и не заработала
Программа Диенека Do-It-Yourself DODECAD V2.1 http://dodecad.blogspot.ru/2011/09/do-it-yourself-dodecad-v-21.html (необходима для самостоятельного запуска калькуляторов без заливки данных на Gedmatch).
Инструкция по запуску.
Подготовка к работе:
1) Для работы необходима программа R, скачиваем и устанавливаем отсюда:
http://www.r-project.org/2) Распаковываем содержимое архива DODECAD к себе на компьютер (далее для примера буду считать, что архив распакован в папку C:\DYD, назовем ее "рабочая папка")
3) Помещаем в рабочую папку файл со своей генетической информацией, скачанной с 23andme
https://www.23andme.com/you/download/ или FTDNA (Недавно добавлено GENO 2.0, смотрите
http://dodecad.blogspot.ru/2012/11/geno-20-patch-for-diydodecad.html). Назовем его johndoe (по русски будет Имярек
)
4) Для перекодировки файла в формат DYD:
4.1) Запускаем R
4.2) В R выполняем команду setwd('c:\\DYD')
4.3) Выполняем source('standardize.r')
4.4) Выполняем standardize('johndoe.txt', company='23andMe') для пользователей 23andme
Или standardize('johndoe.csv', company='ftdna') для пользователей FTDNA
4.5) В рабочей папке должен появиться файл genotype.txt
Запуск калькулятора:
5) Распаковываем нужный калькулятор в рабочую папку. В исходный архив уже вложен калькулятор DODECAD v3, его и возьмем в качестве примера.
6) Запускаем R, выполняем setwd('c:\\DYD')
7) Выполняем system('DIYDodecadWin dv3.par'). Для других калькуляторов название командного файла .par будет, соответственно, другим.
8 ) Итоговый результат выведется на экран, а также в файл genomewide.txt
Для вывода результата в похромосомном режиме отредактируйте файл .par, заменив строчку genomewide (последняя) на bychr
Работа с Оракулом:
9) Запускаем файл Оракула, например,DodecadOracleV1.RData для нашего примера
10) Выполняем команду DodecadOracle(c(a,b,c...),,k=50), где (a, b, c...) - наши значения по компонентам калькулятора (можно взять из файла genomewide.txt), разделенные запятыми. В самих значениях целая часть от дробной отделяется точкой. k=50 означает "Вывести 50 ближайших популяций". Чтобы вывести варианты смешанных популяций, используем формат команды DodecadOracle(c(a,b,c...),k=50, mixedmode=T). Большие/маленькие буквы имеют значение. Для калькуляторов Вадима Веренича используем команду MOracle вместо DodecadOracle
Рекомендовано к использованию в первую очередь (с оракулом четырех предков):Наиболее свежий калькулятор от Вадима Веренича K27 betaФайл для оракула четырех предковТаблица популяцийКарта распространения компонентов Другие калькуляторы:
Разнообразные калькуляторы Диенека: http://dodecad.blogspot.ru/search/label/DIYDodecadКалькуляторы JTest и EUTest Polako Файлы для DIYDodecad, данные по исходным популяциям, карты распространения компонентов.
Калькулятор EUTest V2 Данные по исходным популяциям, карты распространения компонентовПрямая ссылка на файлы для DYDodecad.
Калькулятор K36 Усреднения по восточноевропейским популяциям для K36Файл для "Оракула четырех предков" по тем же популяциямИнформация по более старым калькуляторамКалькулятор Вадима Веренича World-22 https://docs.google.com/open?id=0B6n7iMc2P-yQMnN2OXVERlhjSXMОракул World-22 Исходные популяции World-22Карты распространения компонентовПредыдущий калькулятор Вадима MDLP World для K= от 5 до 15 (в 13 перепутаны аллели)Калькулятор Harappa World http://www.harappadna.org/2012/05/diy-harappaworld/Оракул Harappa World (команда HarappaOracle)
Таблица усредненных популяций для девяти основных калькуляторов"Оракул четырех предков""Оракул четырех предков" (программа ув. Alex AXe)Статистика по доле генома, наследуемого от каждого из четырех предковEthnoGraph ув. Alex AXe для построения PCA-плотовИспользование "Оракула четырех предков" (скопировано из профильной темы):
С 4 декабря Оракул четырех предков доступен в полном объеме на сайте gedmatch.com (для калькуляторов, у которых есть и обычный оракул - это все калькуляторы проектов MDLP, DODECAD, Harappa и калькуляторы JTest, EUTest проекта Eurogenes). Используйте кнопку Oracle-4 на странице вывода результатов нужного калькулятора. Расчет делается методом минимизации среднеквадратичного отклонения, результаты могут несколько отличаться от выложенных ранее в этой теме из-за различия в исходных данных популяций.
Уважаемый Alex AXe разработал программу, рассчитывающую возможных четырех предков по разным алгоритмам и с возможностью подстановки данных из разных калькуляторов.
Версия 0.97 (самая свежая на момент изменения этого сообщения):
http://db.tt/634mFXL2Комментарий автора:
Сделал нормальную реализацию метода постоянной дисперсии и нормальную нормировку расстояний в нем. Удалось немножко его оптимизировать.
Полностью пересмотрел модель шума и порогов.
Теперь не используется параметр "порог метода", вместо него в соответствующей строчке файла input.txt нужно поставить 1 для использования gaussian-метода и 0 для его отключения. Метод наименьших квадратов будет использован в обоих случаях.
Формат input.txt для версии 0.97:
1-я строка: имя (условное) человека, чьи данные анализируются.
2-я строка: имя файла с данными популяций
3-я строка: имя файла с результатами
4-я строка: число выдаваемых результатов приближений. Для режима 4-х предков будет выдано удвоенное число результатов.
5-я строка: минимальный порог компонентов. Значения меньше его будут отброшены. Для автоопределения порога нужно ввести минус единицу.
6-я строка: 1 для использования Gaussian или же 0 для использования только LSM
7-я и далее строки: значения компонентов
Кстати, долгожданный графический интерфейс готов. Сделал его отдельной программой. При запуске нужно выбрать используемый калькулятор (путем указания файла с данными популяций) и потом ввести значения для конкретного человека.
После нажатия на кнопку "Go!" будет сгенерирован input.txt и запустится внешняя программа расчетов.
Можно одновременно запускать несколько для разных данных одного калькулятора (так как input.txt читается только в момент начала расчетов). Естественно, выходные файлы указывать разными. Смотреть их все так же -блокнотом.
Версия 0,95:
http://db.tt/q5pEFZChКомментарии автора (несколько отредактированы для удобства):
Просто редактируйте файл input.txt подставляя туда свои значения из результатов калькулятора (вместо прочерков для отсутствующих компонент вводите нули).
В начале файла input.txt указываются следующие параметры:
1. Имя (условное) тестируемого. Сделано для удобства идентификации данных, также это имя потом указывается в выходном файле.
2. Имя файла с данными популяций.
3. Имя файла с результатами. Сделано для удобства.
4. Число выдаваемых приближений.
5. Порог компонента. Значения компонентов, которые меньше его, принимаются равными нулю.
6. Порог метода. При вычислении расстояний между данными и приближением, расстояние между компонентами, меньшие этого порога, не учитываются.
7. Номер метода вычисления расстояний, который будет использован. Доступно 8 методов с номерами от 0 до 7, показавших наилучшие результаты. Ноль соответствует методу квадратов. Если указать в качестве номера метода отрицательное число, то будут последовательно использованы все методы.
Как и было обещано, теперь выдаются приближения не только для 4 предков, но и для меньшего их числа. В случае 3-х предков, считается, что первый - это один из родителей, а остальные двое - это бабушка и дедушка со стороны другого родителя.
Еще один калькулятор (устаревший) http://esquilax.stanford.edu/#painting