• Добро пожаловать, Гость
news Новости: Вышел в свет первый выпуск журнала "The Russian Journal of Genetic Genealogy". Приглашаются Авторы для написания статей. news

Автор Тема: PLINK  (Прочитано 1839 раз)

0 Пользователей и 1 Гость смотрят эту тему.

OfflineVadim Verenich

  • Главный модератор
  • *****
  • Rating 160
  • Сообщений: 2407
  • Y-ДНК: I2a2b
  • мтДНК: J1с
  • Timendi causa est nescire
    • WWW
Re: PLINK
« Reply #60 : 20 Ноября 2009, 19:53:29 »
  •  

Вторая проблема - первые 6 клонок. От вас мне надо подтвердить - что вы действительно готовы поддерживать группу-отца-мать-пол - в именах файлов (как выше по ветке).

Первые 6 колонок в данном случае  - это некритично, поскольку речь не идет о поиске генов, ассоциированных с болячками и (пока) не сравниваются данные по контрольной и тест-группам. Можете пока заполнять их единицами, в любом случае эти данные относительн легко модифицировать и верифицировать. Сейчас надо подумать об алгоритме "причесывания" сырых данных RawData в один формат, с тем чтобы сниповые значения во всех столбцах были параллельные (отсутсвующие снипы заполнять). Как Вы уже поняли идентификатор снипа в 23ия тот же, что и в Hapmap, и является уникальным.
Записан
Melna ha ilan ha hizon
Mol Sitra ahra
Olahm ha Kliffoth
Oiht Eoga Mlu
La bahm Lml Eoan oee
Oze prg basp oi
Esap Moavaan Babalon
In nia o sob zon i
Lepaca Kliffoth

OfflineAnode

  • Rating 18
  • Сообщений: 313
  • Y-ДНК: N1c1
  • мтДНК: H10
  • PS1 -> TT1 -> EE1 -> PS2
Re: PLINK
« Reply #61 : 22 Ноября 2009, 20:14:46 »
  •  
По просьбе Анода, выложил список названий снипов в RawData (без других данных). Прошу помнить, что это только частный случай, количество автосомных снипов у разных тестантов отличается.
что-то торможу и не могу найти ваш список.

Но я уже сгрузил список napobo3 и сделал, кажется, то что вам надо.
(сгрузите, пожалуйста, комманд-лайн версию жаба-версии (aisconvert-<lastdate>-bin.zip) с:
http://sourceforge.net/projects/aisconvert/files/)

Прога теперь "причёсывает" все снипы согласно переданному через аргумент "-s /path2snips" списку снипов.
Если не передаёте - будет выдано предупреждение и использован маппинг файл по-умолчанию, тот который в главной директории.
К примеру, если хотите вывести вообще все снипы из файла , на которые тестирует 23andme (данные napobo3) - запускаете так:

$ aisconvert -i data/1.txt -s 23andmesnps.txt

Я тут все дела раскидал и субботу посвятил этому тулу (пока конечно только на жабскую комманд-лайн версию). Кроме вышеназванного "причёсывания" - сделал возможности передавать разные рагументы ("aisconvert --help" или "aisconvert -h" теперь не дамми, а уже соответствует реальному положению вещей: того что поддерживается) итд.
« Последнее редактирование: 22 Ноября 2009, 21:17:28 от Anode »
Записан
There is no history of mankind, there are only many histories of all kinds of aspects of human life. And one of these is the history of political power. This is elevated into the history of the world.  -- Karl Popper

OfflineVadim Verenich

  • Главный модератор
  • *****
  • Rating 160
  • Сообщений: 2407
  • Y-ДНК: I2a2b
  • мтДНК: J1с
  • Timendi causa est nescire
    • WWW
Re: PLINK
« Reply #62 : 22 Ноября 2009, 21:58:24 »
  •  
Ув. Анод,
 
Огромное спасибо за новую версию конвертора. У меня сегодня не был времени протестировать конвертер на "настоящих" данных, но с приложенными Вами тест-файлами проблем не было.
 
Огромное человеческое СПАСИБО (+1) за Ваш серьезный подход к делу. :)
 
PS. Ссылку на перечень снипов я просто забыл вставить, так что никаких "глюков" не было.
Записан
Melna ha ilan ha hizon
Mol Sitra ahra
Olahm ha Kliffoth
Oiht Eoga Mlu
La bahm Lml Eoan oee
Oze prg basp oi
Esap Moavaan Babalon
In nia o sob zon i
Lepaca Kliffoth

OfflineAnode

  • Rating 18
  • Сообщений: 313
  • Y-ДНК: N1c1
  • мтДНК: H10
  • PS1 -> TT1 -> EE1 -> PS2
Re: PLINK
« Reply #63 : 22 Ноября 2009, 22:36:04 »
  •  
Ув. Анод,
 
Огромное спасибо за новую версию конвертора. У меня сегодня не был времени протестировать конвертер на "настоящих" данных, но с приложенными Вами тест-файлами проблем не было.
 
Огромное человеческое СПАСИБО (+1) за Ваш серьезный подход к делу. :)
 
PS. Ссылку на перечень снипов я просто забыл вставить, так что никаких "глюков" не было.

нет проблем.

все глюки/баги которые заметите - сообщайте. Так же пишите все пожелания - какой хотите видить прогу в идеале (каким видите максимально удобный интерфейс для работы). А мы попробуем осуществить - насколько позволит свободное время.
Записан
There is no history of mankind, there are only many histories of all kinds of aspects of human life. And one of these is the history of political power. This is elevated into the history of the world.  -- Karl Popper

OfflineVadim Verenich

  • Главный модератор
  • *****
  • Rating 160
  • Сообщений: 2407
  • Y-ДНК: I2a2b
  • мтДНК: J1с
  • Timendi causa est nescire
    • WWW
Re: PLINK
« Reply #64 : 22 Ноября 2009, 22:43:01 »
  •  
Ув. Анод,
 
Огромное спасибо за новую версию конвертора. У меня сегодня не был времени протестировать конвертер на "настоящих" данных, но с приложенными Вами тест-файлами проблем не было.
 
Огромное человеческое СПАСИБО (+1) за Ваш серьезный подход к делу. :)
 
PS. Ссылку на перечень снипов я просто забыл вставить, так что никаких "глюков" не было.

нет проблем.

все глюки/баги которые заметите - сообщайте. Так же пишите все пожелания - какой хотите видить прогу в идеале (каким видите максимально удобный интерфейс для работы). А мы попробуем осуществить - насколько позволит свободное время.

Как только - так сразу.
Записан
Melna ha ilan ha hizon
Mol Sitra ahra
Olahm ha Kliffoth
Oiht Eoga Mlu
La bahm Lml Eoan oee
Oze prg basp oi
Esap Moavaan Babalon
In nia o sob zon i
Lepaca Kliffoth

OfflineVadim Verenich

  • Главный модератор
  • *****
  • Rating 160
  • Сообщений: 2407
  • Y-ДНК: I2a2b
  • мтДНК: J1с
  • Timendi causa est nescire
    • WWW
Re: PLINK
« Reply #65 : 23 Ноября 2009, 16:40:21 »
  •  
На real-life data выравнивание и причесывание снипов не дает требуемого результата. Вместо ожидаемыех генотипных аллелей вижу одни нули, ???  и именно в тех местах, где известны данные о снипе.
Вообщем плохо дело. Необходима отладка кода.
Записан
Melna ha ilan ha hizon
Mol Sitra ahra
Olahm ha Kliffoth
Oiht Eoga Mlu
La bahm Lml Eoan oee
Oze prg basp oi
Esap Moavaan Babalon
In nia o sob zon i
Lepaca Kliffoth

OfflineVadim Verenich

  • Главный модератор
  • *****
  • Rating 160
  • Сообщений: 2407
  • Y-ДНК: I2a2b
  • мтДНК: J1с
  • Timendi causa est nescire
    • WWW
Re: PLINK
« Reply #66 : 23 Ноября 2009, 16:49:39 »
  •  
Полагаю, что ошибка кроется в том, что снипы скармливаются программе не в том порядке, который задекларирован в файле Леона.
Записан
Melna ha ilan ha hizon
Mol Sitra ahra
Olahm ha Kliffoth
Oiht Eoga Mlu
La bahm Lml Eoan oee
Oze prg basp oi
Esap Moavaan Babalon
In nia o sob zon i
Lepaca Kliffoth

OfflineAnode

  • Rating 18
  • Сообщений: 313
  • Y-ДНК: N1c1
  • мтДНК: H10
  • PS1 -> TT1 -> EE1 -> PS2
Re: PLINK
« Reply #67 : 23 Ноября 2009, 20:49:40 »
  •  
Полагаю, что ошибка кроется в том, что снипы скармливаются программе не в том порядке, который задекларирован в файле Леона.

Снипы обязаны скармливаться в том-же порядке, что и файл Леона.
Я это предполагаю согласно:
------8<------
1.В Raw Data файле строки-снипы отфильтрованы по порядковому номеру хромосомы (и в конце -мито), а внутри хромосомы по расположению на хромосоме.
------8<------
если это не так и порядок нарушен - тот алгоритм работать не будет. Т.е. надо вначале сортировать: точно как во всех примерах и файле Леона. Вы можете как-то отсортировать?

Если надо имплементировать сортировку на стороне утилиты, она конечно возьмёт процессинговое время на больших файлах, а главное - возрастут требования к памяти (в текущем алгоритме вообще почти ничего не держится в памяти и всё быстро - именно из-за предположения пре-отсортированных массивов).
Записан
There is no history of mankind, there are only many histories of all kinds of aspects of human life. And one of these is the history of political power. This is elevated into the history of the world.  -- Karl Popper

OfflineVadim Verenich

  • Главный модератор
  • *****
  • Rating 160
  • Сообщений: 2407
  • Y-ДНК: I2a2b
  • мтДНК: J1с
  • Timendi causa est nescire
    • WWW
Re: PLINK
« Reply #68 : 23 Ноября 2009, 22:31:59 »
  •  
Прошу прощения за ложный сигнал, так как это я накосячил. На самом деле, я просто указал ссылку не на тот список снипов. После исправления ссылки, попробывал конвертнуть 4 "сырца" (Raw Data samples) с реальной информацией, на что ушло примерно 5304 миллисекунд программного времени. На этот раз полученный на выходе файл Plink обработал без особого труда.Лог программы

@----------------------------------------------------------@|        PLINK!       |     v1.07      |   10/Aug/2009     ||----------------------------------------------------------||  (C) 2009 Shaun Purcell, GNU General Public License, v2  ||----------------------------------------------------------||  For documentation, citation & bug-report instructions:  ||        http://pngu.mgh.harvard.edu/purcell/plink/        |@----------------------------------------------------------@
Skipping web check... [ --noweb ] Writing this text to log file [ plink.log ]Analysis started: Mon Nov 23 17:21:16 2009
Options in effect:   --noweb   --bfile output   --ld rs11265269 rs16842629
Reading map (extended format) from [ output.bim ] 577484 markers to be included from [ output.bim ]Reading pedigree information from [ output.fam ] 4 individuals read from [ output.fam ] 4 individuals with nonmissing phenotypesAssuming a disease phenotype (1=unaff, 2=aff, 0=miss)Missing phenotype value is also -90 cases, 4 controls and 0 missing4 males, 0 females, and 0 of unspecified sexReading genotype bitfile from [ output.bed ] Detected that binary PED file is v1.00 SNP-major modeBefore frequency and genotyping pruning, there are 577484 SNPs4 founders and 0 non-founders found130 SNPs with no founder genotypes observedWarning, MAF set to 0 for these SNPs (see --nonfounders)Writing list of these SNPs to [ plink.nof ]Total genotyping rate in remaining individuals is 0.998670 SNPs failed missingness test ( GENO > 1 )0 SNPs failed frequency test ( MAF < 0 )After frequency and genotyping pruning, there are 577484 SNPsAfter filtering, 0 cases, 4 controls and 0 missingAfter filtering, 4 males, 0 females, and 0 of unspecified sex
LD information for SNP pair [ rs11265269 rs16842629 ]
   R-sq = -1.000     D' = 1.000
   Haplotype     Frequency    Expectation under LE   ---------     ---------    --------------------       C0          0.000            0.000       T0          0.000            0.000       CG          0.375            0.375       TG          0.625            0.625
   In phase alleles are CG/T0
Analysis finished: Mon Nov 23 17:22:00 2009


Записан
Melna ha ilan ha hizon
Mol Sitra ahra
Olahm ha Kliffoth
Oiht Eoga Mlu
La bahm Lml Eoan oee
Oze prg basp oi
Esap Moavaan Babalon
In nia o sob zon i
Lepaca Kliffoth

OfflineVadim Verenich

  • Главный модератор
  • *****
  • Rating 160
  • Сообщений: 2407
  • Y-ДНК: I2a2b
  • мтДНК: J1с
  • Timendi causa est nescire
    • WWW
Re: PLINK
« Reply #69 : 24 Ноября 2009, 01:31:11 »
  •  
Хочу показать, что утилита действительно работает.Результаты анализа неравновесия сцепления (LD) и выявленные "гаплоблоки" одного из подозрительных участков 6 хромосомы, по данным PED файла (содержащего геномные данные 4 реальных людей), полученного с помощью утилиты Анода.
« Последнее редактирование: 24 Ноября 2009, 03:52:03 от Vadim Verenich »
Записан
Melna ha ilan ha hizon
Mol Sitra ahra
Olahm ha Kliffoth
Oiht Eoga Mlu
La bahm Lml Eoan oee
Oze prg basp oi
Esap Moavaan Babalon
In nia o sob zon i
Lepaca Kliffoth

OfflineAnode

  • Rating 18
  • Сообщений: 313
  • Y-ДНК: N1c1
  • мтДНК: H10
  • PS1 -> TT1 -> EE1 -> PS2
Re: PLINK
« Reply #70 : 24 Ноября 2009, 02:32:27 »
  •  
Хочу показать, что утилита действительно работает.Результаты анализа неравновесия сцепления (LD) и выявленные "гаплоблоки" одного из подозрительных участков 6 хромосомы, по данных PED файла (содержащего геномные данные 4 реальных людей).


Хоть и ничего не понимаю в результатах, но буду чрезвычайно рад - если 2 дня моей работы прошли не зря и с них будет хоть какая-то польза науке :)

Записан
There is no history of mankind, there are only many histories of all kinds of aspects of human life. And one of these is the history of political power. This is elevated into the history of the world.  -- Karl Popper

OfflineAnode

  • Rating 18
  • Сообщений: 313
  • Y-ДНК: N1c1
  • мтДНК: H10
  • PS1 -> TT1 -> EE1 -> PS2
Re: PLINK
« Reply #71 : 24 Ноября 2009, 03:52:59 »
  •  
Для тех, кто захочет исправлять-добавлять-девелопить в будущем.

Я загрузил сырцы в version control (cvs) на sourceforge.
Просто для одноразового получения  (везде где есть cvs клиент: под юниксами или cygwin'ом или установлена команд-лайн версия cvs под виндовс):
cvs -d:pserver:anonymous@aisconvert.cvs.sourceforge.net:/cvsroot/aisconvert login
нажать <Enter>
cvs -d:pserver:anonymous@aisconvert.cvs.sourceforge.net:/cvsroot/aisconvert co aisconvert

(но на самом деле, анонимный read-only доступ мало отличается от даунлода aisconvert-<version>-all.zip)

Для доступа на запись - скажите и я добавлю девелопера.
Там УРЛ для доступа будет типа:
:extssh:username@aisconvert.cvs.sourceforge.net:/cvsroot/aisconvert

Но легче пользоваться эклипсовским cvs клиентом (если пользоваться эклипсом как средой разработки): там надо просто сделать "Import => Projects from CVS" и ввести параметры с приаттаченного скрина, только со своим аккаунтом на sourceforge.
« Последнее редактирование: 24 Ноября 2009, 04:15:36 от Anode »
Записан
There is no history of mankind, there are only many histories of all kinds of aspects of human life. And one of these is the history of political power. This is elevated into the history of the world.  -- Karl Popper

OfflineVadim Verenich

  • Главный модератор
  • *****
  • Rating 160
  • Сообщений: 2407
  • Y-ДНК: I2a2b
  • мтДНК: J1с
  • Timendi causa est nescire
    • WWW
Re: PLINK
« Reply #72 : 24 Ноября 2009, 03:55:20 »
  •  
Отлично. От себя добавляю откомпилированные утилиты, необходимые для перекрестного конверитования файлов формата PED в формат Beagle и обратно
Записан
Melna ha ilan ha hizon
Mol Sitra ahra
Olahm ha Kliffoth
Oiht Eoga Mlu
La bahm Lml Eoan oee
Oze prg basp oi
Esap Moavaan Babalon
In nia o sob zon i
Lepaca Kliffoth

Offlinenapobo3

  • Rating 54
  • Сообщений: 381
  • Y-ДНК: J1e
  • мтДНК: N1b2
Re: PLINK
« Reply #73 : 24 Ноября 2009, 13:08:08 »
  •  
Отлично. От себя добавляю откомпилированные утилиты, необходимые для перекрестного конверитования файлов формата PED в формат Beagle и обратно
Поздравляю. Team work Вадима и Василия приносит результаты. Обоим плюсы.
В качестве следующего шага предлагаю научиться работать с данными из других источников.
Для начала возьмем проект HapMap.
Данные лежат в открытом доступе. Формат описан здесь.
Кроме возможности конвертирования данных для PLINKа, у меня есть корыстный интерес - иметь возможность их использовать в УПСоискателе.
Он понимает формат 23андме, поэтому проще всего сконвертировать в него.
Возможно? Если нужна моя помощь в пре-подготовке данных, скажите.
« Последнее редактирование: 24 Ноября 2009, 15:42:00 от napobo3 »
Записан
Y-DNA: J1e   Ysearch: ZFCQG
SNPs: M429+ M294+ P129+ M304+ P58+ M267+  M369- L147+
mtDNA: N1b2 mtSearch: ZFCQG GenBank ID: GU320211
а также:
Y-DNA:  G2a3b* Ysearch: PSQP6
Y-DNA:  R1a1     Ysearch: 4TDCJ
mtDNA: H (H6a1 ?)

OfflineAnode

  • Rating 18
  • Сообщений: 313
  • Y-ДНК: N1c1
  • мтДНК: H10
  • PS1 -> TT1 -> EE1 -> PS2
Re: PLINK
« Reply #74 : 25 Ноября 2009, 04:40:46 »
  •  
глянул в файлы (ткнулся в несколько, рандомально). Сразу возникло 3 вопроса.

1) Некоторые файлы (например, 2003-11/by-chromosome/genotypes_chr1.txt.gz, 2003-11/by-center/genotypes_SANGER.txt.gz, 2003-11/by-center/genotypes_BCM.txt.gz итд имеют header:
rs# SNPalleles chrom pos strand genome_build center assayLSID  NA06985 NA06991 NA06993 NA06993.dup NA06994 NA07000 NA07019 ...
который совсем другой HapMap (9+ колонок, а не 12+, как у приведённого Вами).
Его тоже надо поддерживать? Или только Вами указанный HapMap в последних годах?
Если надо - то сколько таких разных форматов может быть? (ведь и имена хедеров я смотрю разные, и как я заметил - не стандартизованные:
тут и SNPalleles и alleles - для одного и того-же).
Если нужны все и вы не знаете сколько их (а может есть и 10-колоночные итд?) - видимо нужно просмотреть их все и занести все имена, чтобы знать с какой колонки начинается реальный генотип?

2) Что писать вместо снипа, в первую колонку, в версии для HapMap? Coriell catalog numbers, что в хедере?

3) Где взять мастер-лист всех Coriell catalog numbers? Объединение их всех? У вас такой лист есть?
Записан
There is no history of mankind, there are only many histories of all kinds of aspects of human life. And one of these is the history of political power. This is elevated into the history of the world.  -- Karl Popper
 

Rambler's Top100