Может быть лучше назвать тему "Секвенирование экзома для диагностики заболеваний"?
Делюсь своей подборкой информации на англ. языке о секвенировании экзома для диагностики редких заболеваний
Подборка для тех кто с нуля сам захочет разобраться.
Хорошая статья о значении и смысле самого секвенирования:
http://www.biorigami.com/wp-content/uploads/2011/10/what-can-exome-sequencing-do-for-you.pdf Понимание структуры VCF файла:
1)
http://gatkforums.broadinstitute.org/discussion/1268/how-should-i-interpret-vcf-files-produced-by-the-gatk2)
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3137218/3)
http://www.1000genomes.org/wiki/Analysis/Variant%20Call%20Format/vcf-variant-call-format-version-41Классный обзор современных программных инструментов для подготовки, визуализации и анализа данных секвенирования:
http://bib.oxfordjournals.org/content/early/2013/01/21/bib.bbs086.fullПроведен сравнительный анализ программ по группам. Кстати, большая часть программ - бесплатные.
Наиболее популярное и развитое программное обеспечение для аннотирования VCF файла:
http://snpeff.sourceforge.net/http://www.openbioinformatics.org/annovar/Эти программы не связаны и могут использоваться по отдельности. Я немного разобрался с snpEff. Работают они под Linux или на эмуляторе Unix под Windows. Например, я пользуюсь Cygwin
http://www.cygwin.com/Для знакомства с программами нужно установить Linux или эмулятор, установить их согласно инструкции и разобраться в работе с командной строкой на примере тестового VCF файла. Все это не очень просто. Поэтому стоит обратиться за помощью к тому, кто работает с Linux.
В принципе, есть еще один путь - аннотирование файла на сервере. Например здесь:
http://gvsbatch.gs.washington.edu/SeattleSeqAnnotation137/index.jspПо этой ссылке можно загрузить неаннотированный VCF файл и получить его в пригодном для анализа в Excel виде (через час после загрузки тестового файла пришла ссылка, что можно выкачать назад). По-моему неплохо справляется.
По некоторым полиморфизмам, которые в исходном VCF файле выглядят так:
#CHROM 1
POS 9323910
ID rs6688832
REF G
ALT A
QUAL .
FILTER PASS
INFO NS=1;DP=49;AF=1.000;ANNOT=CDS;REFAA=R;AAC=Q;GI=H6PD;TI=NM_004285.3;PI=NP_004276.2
FORMAT GT:DP:EC:CONFS
Job1.pjt 1/1:49:49:13.100,13.200,1.000,1.000,1.000,1.000,1.000
Получаются, например, такие аннотации:
inDBSNPOrNot dbSNP_116
chromosome 1
position 9323910
referenceBase G
sampleGenotype A
sampleAlleles A/A
allelesDBSNP A/G
accession NM_004285.3
functionGVS missense
functionDBSNP missense
rsID 6688832
aminoAcids ARG,GLN
proteinPosition 453/792
cDNAPosition 1358
polyPhen 0.001
granthamScore 43
scorePhastCons 0.054
consScoreGERP -2.120
chimpAllele A
CNV 8,31648E+18
geneList H6PD
AfricanHapMapFreq 17.1
EuropeanHapMapFreq 41.328
AsianHapMapFreq 46.5
hasGenotypes yes
dbSNPValidation by-frequency
repeatMasker none
tandemRepeat none
clinicalAssociation http://www.ncbi.nlm.nih.gov/sites/varvu?gene=9563&rs=6688832|http://www.ncbi.nlm.nih.gov/omim/138090,604931|http://omim.org/entry/138090#0002
distanceToSplice 343
microRNAs none
genomesESP A=3988/G=9018
Но SeattleSeq Annotation не такой мощный, как упомянутые Linux-приложения и согласно обзору, на который я ссылался выше: "the tool might be interesting for research groups without dedicated hardware for data analysis".
Есть и другие веб-анализаторы, но я не вникал.
Если есть подозрения на конкретные заболевания, то имеет смысл в первую очередь проверить гены из панелей, которые предлагают молекулярные лаборатории. Например, здесь, большой список заболеваний и ответственных за них генов:
http://www.genedx.com/test-catalog/disorders/Хорошая статья о стратегии поиска генов-кандидатов для заболевания:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3330229/Надеюсь, я когда-нибудь буду понимать все, что там написано
Кстати, в библиотеке можно найти еще множество разных статей по теме:
http://www.ncbi.nlm.nih.gov/pmc/?term=Exome+sequencingЕще презентация по стратегии:
http://www.nbic.nl/uploads/media/09_variant_interpretation_for_diagnostics.pdfПопулярная статья, может пригодиться, как чей-то опыт:
http://jchoigt.wordpress.com/2012/07/18/working-with-23andme-exome-data-my-cf-allele-and-the-need-for-verification/Правда, у меня не работала описанная там программа для визуализации генетической информации, но есть и другие. Большинство из них бесплатные. Здесь список:
http://en.wikipedia.org/wiki/Genome_browser У меня, например, работает Golden Helix Genome Browser -
http://www.goldenhelix.com/GenomeBrowse/Программы визуализации - интересная штука, но, видимо, они не особенно важны при медицинском анализе. Я так понимаю, лучше экспортировать отфильтрованные данные в Excel и работать с ними в табличной форме.
Интересный блог - реальные примеры из опыта анализа данных и стратегии поиска патогенных мутаций:
http://gtbinf.wordpress.com/Для продвинутых пользователей - форум по биоинформатике:
http://seqanswers.com/forums/index.phpНо это, как по мне, «высший пилотаж», т.к. понимаю очень малую часть из обсуждаемого.
Буду рад дополнением и конструктивной критике, т.к. я пока "чайник" в этой теме.