Руки чешутся опробывать большие сэмпл (около 100 индивидов) в программах типа Structure (кластерный анализ), Plink (комплексный пакет статистического анализа), Haploview (анализ сцепления и тому подобное).
С другими программами ряд проблем. Первая проблема в записи формата, т.е. формат Raw Data (c 4 столбцами -индификатор снипа, номер хромосомы, позиция на хромосоме и генотипа) перед обработкой в программе необходимо конвертировать. И если эта проблема решаема, то более серьезная проблема связана с вычислительной мощностью/памятью компьютеров. Например, текстовой (!) файл из 100 сэмплов генома по 500000 снипам будет весит около 600 Мб. Java-программа Structure с графическим интерфейсом такой объем уже не потянет. Нужно попробывать запуск через коммандную строку.
Вообщем и целом головняк. Там еще куча проблем с фазированием гаплотипов из сырых данных 23ия, и т.д.
PS. И еще я ищу умного человека, который подсказал бы, как быстро превращать файлы формата Raw Data в формат linkage file (PED+MAP). Там нужно поменять направление в котором записывается генотип на 90 градусов против часовой стрелки.
Например, вот например абстрактная строка в файле Raw Data
rs123456 7 12345678 AG (первая колонка - номер снипа, вторая-номер хромосомы, третья-позиция пары, четвертая -собственно генотип).
Эту строку нужно поменять в следущий формат
3 1 0 0 1 1 13 ........ (первая колонка - индификатор группы, вторая индификатор индивида, 3 и 4 -идентификатор матери и отца (могут быть игнорированы, в данном случае задаются значения 0 0), 5 - пол, 6-фенотип, под которым понимается либо статус подверженности заболевания (1-affected, 2 -unaffected), либо - как в нашем случае - принадлежность к одной из двух групп (2- анализируемая группа 1-контрольная группа).
Дальше начинается самая сложная часть -с 7 идентификатора идет запись сообственно генотипа, биаллельные генотипы записываются в две колонки (в формате RawData они записываются в одну колонку)с пробелом между предыдущим и следущим генотипом. Используется следущая кодировка: 1=A, 2=C, 3=G, T=4. 0 -обозначает пропущенный или отсутствующий аллель.
Понятно, что при небольшом количестве снипов и маленькой выборке все это можно сделать и вручную, но в случае с 23ия этот процесс подготовки файлов может расстянутся на месяца.