АвторТема: Компьютерный анализ результатов тестирования геномов  (Прочитано 685 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн alminkoАвтор темы

  • Сообщений: 195
  • Страна: ru
  • Рейтинг +26/-0
  • Y-ДНК: R-M269
Добрый день. Широко интересуюсь методами биоинформатики и в частности компьютерного анализа геномов. Конкретно-меня интересуют проблемы анализа, импутирования и фазирования геномов в программах PLINK, BEAGLE, PHASE и IMPUTE.
Я поставил задачу фазировать свой геном, используя вышеперечисленные методы с использованием референсных панелей из проекта НарМар или 1000 геномов человека. Несмотря на то, что я читал инструкции к программам и вникал в суть методов импутирования и фазирования, у меня появился ряд вопросов, на которые я хотел бы получить ответы. Для начала напишу что было уже сделано.
1. Свои RAW-data из FTDNA (build36 concatenated) я преобразовал в формат 23andme с помощью 2-х строчечного bash-скрипта:

echo -e "# rsid\tchromosome\tposition\tgenotype" > output.txt
cat input.csv|tail -n +2|cut -d, -f1,2,3,4|sed s/\"//g|sed s/,/\\t/g >> output.txt
 
Данный скрипт взят отсюда: http://www.y-str.org/2014/09/autosomal-dna-converter-nix.html Он выполнялся под CYGWIN`ом.
Далее файл в формате 23andme преобразовывался в формат PLINK (PED&MAP) с помощью Perl-скрипта:
http://blogs.discovermagazine.com/gnxp/2013/01/using-your-23andme-data-in-plink/#.WBc5CzVH1kh
Я использовал пакет Strawberry Perl и при дальнейшем преобразовании файла указал "me", в качестве замены названий колонок IID и FID как советовал блогер.
После чего я преобразовал полученный PED- файл в бинарный BED.
С помощью --recode я сгенерировал попутно новые файлы PED и MAP со снипами на 6-й хромосоме, чтобы пропустить их через сервис HLA-IMP. К сожалению, все закончилось на стадии фазирования, так как файл с фазированными данными нельзя было уже напрямую загрузить на сайт сервиса HLA-IMP. Причина-компания Affymetrix прикрыла эту возможность (в инструкции возможность загрузки заявлена как бесплатная), мотивируя эксклюзивными правами на алгоритм HLA-IMP и просит 10 долларов за обработку фазированных данных и определение HLA-типа. Пока типирование HLA пришлось отложить.

Дальше я взялся за активное изучение алгоритмов фазирования геномов. Пока фазировать геном по родителям не представляется возможным, но фазировать геном по референсам тоже не помешает.
Остановился на программе BEAGLE пока что. Насколько я понял, к подготовке данных для фазирования предъявляются строгие требования, которые я хочу, разумеется, соблюсти.
Собственно, вопросы:
1. Существуют ли еще способы конвертации результатов в формате FTDNA в 23andme и насколько верный выбранный мною способ? Кстати, утилита Aconv от Феликса Чандракумара упорно выдает ошибку типа: "Программа совершила ошибку и будет закрыта", поэтому вопрос работы с ней отпадает пока.
2. Существует ли прямой способ конвертации формата FTDNA в формат PLINK?
3. Существует ли другой тоже способ конвертации формата 23andme в формат PLINK?
4. А вот теперь главный вопрос-как правильно подготовить данные для Beagle, имея на руках формат PLINK?
Beagle требуется формат VCF, PLINK его мне и сгенерирует. Я связывался с разработчиком Beagle, вот что он написал мне: "Dear Alexey,
1. For imputation, you can use the links on the Beagle web page to download the 1000 Genomes Project reference panel.
2. You will need to convert your data to VCF format.  PLINK should be able to do this. You will need to ensure that the records in your VCF file have the same reference allele as in the 1000 Genomes Project reference panel.  Also, you will need to exclude A/T and C/G SNPs to avoid strand ambiguity."

Как грамотно выполнить второй пункт, особенно удаление двусмысленных последовательностей?

Пока что на этом вопросы исчерпываются, но неизбежно появятся еще. Да и тема, считаю, будет полезна тем, кто занимается компьютерными исследованием геномов.

 
 

Оффлайн Saavedra

  • Saavedra
  • Сообщений: 2
  • Страна: 00
  • Рейтинг +0/-0
I want to know if you need more information, can you suggest it?

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.


Rambler's Top100