Тема: PLINK (Прочитано 29653 раз)

napobo3 · « : 01 Ноябрь 2009, 01:39:10 »

Цитата: Vadim Verenich от 01 Ноябрь 2009, 01:27:50

Цитата: napobo3 от 01 Ноябрь 2009, 00:46:52
Цитата: Vadim Verenich от 01 Ноябрь 2009, 00:20:32
Спасибо, Михаил

Но тут вопрос скорее в том, каким образом различать случайное распределение тех же снипов (например) или аллелей от неслучайного распределения (как Вы понимаете, оно имеет для большинства людей, которые тестировались с целью получения информации генеалогического характера, сугубо практическое значение кровного родства). То есть тут присутствует некая аналогия с гомоплазией, которая оказывает весьма ощущаемое влияние на филогенетические реконструкции в случае с Y-STR.
Согласно современным представлениям в генетике, ответ на вопрос о случайности/закономерности частоты совпадения фрагментов генома в популяции и дает анализ LD. Говоря по простому, меня интересует вопрос практического плана, каким образом учитывается феномен равновесности или неравновесности сцепления при поиске родственников RelativeFinder? И учитывается ли вообще?
Насколько я понимаю, длины УПСов на 3 порядка больше чем блоки снипов, похожесть которых обусловлена LD.
Миллионы базовых пар по сравнению с тысячами.
Вот, например средние размеры блоков, приведенные в статье Олшена: 36.8 - 40.5 kb (тысяч базовых пар)

Спасибо Леон за ссылку. Ваша мысль понятна. В этой статье в ходе анализа действительно из примерно 435,632 снипов у двух разных еврейских популяций были выделены гаплоблоки размером в тысячи (36.8 kb против 40.5 kb). На самом деле там применялось два разных метода (и программы)expectation-maximization haplotype phase inference (HAP) и pairwise linkage disequilibrium (LD) statistics (Haploview). Тем не менее, различие в базовых размерах еще не объясняет неприменимость методов LD к участком генома, близких к размерам HIR.

Конечно же не объясняет. Такой попытки не было.
А для желающих - программа анализа и визуализации LD гаплоблоков.

Mich Glitch · « **Ответ #1 :** 01 Ноябрь 2009, 04:40:21 »

Цитата: napobo3 от 01 Ноябрь 2009, 01:19:10

certain known high LD regions == области, находящиеся под сильным влиянием LD, в их пределах может находиться много снип-блоков, указанные границы - не границы блоков, а размеры областей.

Речь идёт именно о границах, а не о размерах. О тех зонах, снипы расположенные в котором не принимаются во внимание из-за высокого уровня LD.

napobo3 · « **Ответ #2 :** 01 Ноябрь 2009, 10:23:15 »

Цитата: Mich Glitch от 01 Ноябрь 2009, 04:40:21

Цитата: napobo3 от 01 Ноябрь 2009, 01:19:10
certain known high LD regions == области, находящиеся под сильным влиянием LD, в их пределах может находиться много снип-блоков, указанные границы - не границы блоков, а размеры областей.
Речь идёт именно о границах, а не о размерах. О тех зонах, снипы расположенные в котором не принимаются во внимание из-за высокого уровня LD.

Именно так. Область большая, а в ней - маленькие снип-блоки, результат LD. Маленькие, но много...
Размер - в среднем 50к. А размер области - как Вы написали.

I2a1a · « **Ответ #3 :** 01 Ноябрь 2009, 16:37:32 »

Может попросить ув. В.А.Степанова из НИИ МГ СО РАМН, Томск прокомментировать ситуацию с неравновесным сцеплением? Этот тот самый Степанов, который читал на съезде ВОГиС доклад "Генетическая история населения Евразии: данные Y- и Х-хромосомных гаплотипов и аутосомных SNP." Судя по фотоотчету, он применял в числе прочего и анализ нерав.сцепления, в программе HapMap. http://forum.molgen.org/index.php/topic,354.msg5752.html#msg5752. Слайды с LD анализом X-хромосомного локуса ZFX http://forum.molgen.org/index.php/topic,354.msg5752.html#msg5752

Кто-нибудь из томчан имеет выход на Степанова?

Centurion · « **Ответ #4 :** 01 Ноябрь 2009, 17:02:33 »

Цитировать

Кто-нибудь из томчан имеет выход на Степанова?

Владимир Харьков (VovanX) работает под руководством В. Степанова.

mouglley · « **Ответ #5 :** 01 Ноябрь 2009, 17:47:29 »

А меня бы удовлетворили комментарии самого уважаемого VovanX, как одного из наиболее известных во всём мире специалистов в данной области.

I2a1a · « **Ответ #6 :** 01 Ноябрь 2009, 18:29:08 »

Цитата: napobo3 от 01 Ноябрь 2009, 01:39:10

Цитата: Vadim Verenich от 01 Ноябрь 2009, 01:27:50
Цитата: napobo3 от 01 Ноябрь 2009, 00:46:52
Цитата: Vadim Verenich от 01 Ноябрь 2009, 00:20:32
Спасибо, Михаил

Но тут вопрос скорее в том, каким образом различать случайное распределение тех же снипов (например) или аллелей от неслучайного распределения (как Вы понимаете, оно имеет для большинства людей, которые тестировались с целью получения информации генеалогического характера, сугубо практическое значение кровного родства). То есть тут присутствует некая аналогия с гомоплазией, которая оказывает весьма ощущаемое влияние на филогенетические реконструкции в случае с Y-STR.
Согласно современным представлениям в генетике, ответ на вопрос о случайности/закономерности частоты совпадения фрагментов генома в популяции и дает анализ LD. Говоря по простому, меня интересует вопрос практического плана, каким образом учитывается феномен равновесности или неравновесности сцепления при поиске родственников RelativeFinder? И учитывается ли вообще?
Насколько я понимаю, длины УПСов на 3 порядка больше чем блоки снипов, похожесть которых обусловлена LD.
Миллионы базовых пар по сравнению с тысячами.
Вот, например средние размеры блоков, приведенные в статье Олшена: 36.8 - 40.5 kb (тысяч базовых пар)

Спасибо Леон за ссылку. Ваша мысль понятна. В этой статье в ходе анализа действительно из примерно 435,632 снипов у двух разных еврейских популяций были выделены гаплоблоки размером в тысячи (36.8 kb против 40.5 kb). На самом деле там применялось два разных метода (и программы)expectation-maximization haplotype phase inference (HAP) и pairwise linkage disequilibrium (LD) statistics (Haploview). Тем не менее, различие в базовых размерах еще не объясняет неприменимость методов LD к участком генома, близких к размерам HIR.
Конечно же не объясняет. Такой попытки не было.
А для желающих - программа анализа и визуализации LD гаплоблоков.

Спасибо, начал изучать форматы PED и MAP. Формат фактически тождествен формату Raw Data 23ия, с небольшими изменениями. Однако основной формат PED более сложен, там кодируется дополнительная информация о генотипе, идентификационные номеры индивидов в семье и самих индивидов, пол данные о заболевании и так далее. Впрочем, эти данные можно пропустить, а Family заменить на этническую принадлежность. Таким образом мы можем придти к следущему формату

Цитировать

FAM001 1 0 0 1 2 A A G G A C
FAM001 2 0 0 1 2 A A A G 0 0

в котором FAM001 будет обозначать группу людей, 1 и 2 - номер индивидов в группе. Каждый индивид записан с новой строчки.

Как видно - основаня трудность, это необходимость повернуть (транспонировать) данные о базовых парах в формате Raw Data на 90 градусов

Код: [Выделить]

 
 Another possible file-format called a transposed fileset, containing two text files: one (TPED) containing SNP and genotype information where one row is a SNP; one (TFAM) containing individual and family information, where one row is an individual. 

The first 4 columns of a TPED file are the same as a standard 4-column MAP file. Then all genotypes are listed for all individuals for each particular SNP on each line. The TFAM file is just the first six columns of a standard PED file. In otherwords, we have just taken the standard PED/MAP file format, but swapped all the genotype information between files, after rotating it 90 degrees. For each, the above example PED/MAP fileset 
     <---- normal.ped ---->                  <--- normal.map --->      1 1 0 0 1  1  A A  G T                  1  snp1   0  5000650      2 1 0 0 1  1  A C  T G                  1  snp2   0  5000830      3 1 0 0 1  1  C C  G G      4 1 0 0 1  2  A C  T T      5 1 0 0 1  2  C C  G T      6 1 0 0 1  2  C C  T T  would be represented as TPED/TFAM files:

napobo3 · « **Ответ #7 :** 01 Ноябрь 2009, 19:57:26 »

Цитата: Vadim Verenich от 01 Ноябрь 2009, 18:29:08

...Как видно - основаня трудность, это необходимость повернуть (транспонировать) данные о базовых парах в формате Raw Data на 90 градусов

Если это - основная трудность, то мы в отличом положении.
Поверну данные под любым углом, только определите под каким

Естественно, длина строчки будет миллион символов, а размер файла - N МВ, где N - количество строчек/индивидуумов.
Но это все технические детали, а не трудности.

I2a1a · « **Ответ #8 :** 01 Ноябрь 2009, 23:32:17 »

Т.е в формате Plink запись генома должна выглядеть примерно также, как в экселовской таблице Адриано, только повернута на 90 градусов.

I2a1a · « **Ответ #9 :** 02 Ноябрь 2009, 17:01:10 »

Протестировал сегодня предложенный мною вариант записи генома 23andme на примере Y-хросомоы 27 представителей I2a2. Собственно, в результате теста важны были не результаты анализа, а проверка формата файла (к тому же, исходные файлы в целях простоты изменены). Видно, что можно продолжать в этом направлении.

Результаты запусков и кое что из статистику в прикрепленном ниже файле.

napobo3 · « **Ответ #10 :** 02 Ноябрь 2009, 17:25:16 »

Цитата: Vadim Verenich от 02 Ноябрь 2009, 17:01:10

Протестировал сегодня предложенный мною вариант записи генома 23andme на примере Y-хросомоы 27 представителей I2a2. Собственно, в результате теста важны были не результаты анализа, а проверка формата файла (к тому же, исходные файлы в целях простоты изменены). Видно, что можно продолжать в этом направлении.

Результаты запусков и кое что из статистику в прикрепленном ниже файле.

Предлагаю выделить отдельную под-ветку для этой весьма технической дискуссии. В текущей ветке все в куче - и советы новичкам, и PLINK - можно заблудиться.

Mich Glitch · « **Ответ #11 :** 02 Ноябрь 2009, 20:11:23 »

Цитата: napobo3 от 02 Ноябрь 2009, 17:25:16

Предлагаю выделить отдельную под-ветку для этой весьма технической дискуссии.

Разделил!

I2a1a · « **Ответ #12 :** 17 Ноябрь 2009, 10:47:37 »

Руки чешутся опробывать большие сэмпл (около 100 индивидов) в программах типа Structure (кластерный анализ), Plink (комплексный пакет статистического анализа), Haploview (анализ сцепления и тому подобное).
С другими программами ряд проблем. Первая проблема в записи формата, т.е. формат Raw Data (c 4 столбцами -индификатор снипа, номер хромосомы, позиция на хромосоме и генотипа) перед обработкой в программе необходимо конвертировать. И если эта проблема решаема, то более серьезная проблема связана с вычислительной мощностью/памятью компьютеров. Например, текстовой (!) файл из 100 сэмплов генома по 500000 снипам будет весит около 600 Мб. Java-программа Structure с графическим интерфейсом такой объем уже не потянет. Нужно попробывать запуск через коммандную строку.

Вообщем и целом головняк. Там еще куча проблем с фазированием гаплотипов из сырых данных 23ия, и т.д.

PS. И еще я ищу умного человека, который подсказал бы, как быстро превращать файлы формата Raw Data в формат linkage file (PED+MAP). Там нужно поменять направление в котором записывается генотип на 90 градусов против часовой стрелки.

Например, вот например абстрактная строка в файле Raw Data

rs123456 7 12345678 AG (первая колонка - номер снипа, вторая-номер хромосомы, третья-позиция пары, четвертая -собственно генотип).

Эту строку нужно поменять в следущий формат
3 1 0 0 1 1 13 ........ (первая колонка - индификатор группы, вторая индификатор индивида, 3 и 4 -идентификатор матери и отца (могут быть игнорированы, в данном случае задаются значения 0 0), 5 - пол, 6-фенотип, под которым понимается либо статус подверженности заболевания (1-affected, 2 -unaffected), либо - как в нашем случае - принадлежность к одной из двух групп (2- анализируемая группа 1-контрольная группа).
Дальше начинается самая сложная часть -с 7 идентификатора идет запись сообственно генотипа, биаллельные генотипы записываются в две колонки (в формате RawData они записываются в одну колонку)с пробелом между предыдущим и следущим генотипом. Используется следущая кодировка: 1=A, 2=C, 3=G, T=4. 0 -обозначает пропущенный или отсутствующий аллель.
Понятно, что при небольшом количестве снипов и маленькой выборке все это можно сделать и вручную, но в случае с 23ия этот процесс подготовки файлов может расстянутся на месяца.

I2a1a · « **Ответ #13 :** 17 Ноябрь 2009, 11:54:01 »

В общем - нужны идеи. Мы ищем таланты.(с)

I2a1a · « **Ответ #14 :** 18 Ноябрь 2009, 02:18:22 »

Разобрался сам с проблемой транспонирования колонки и ряда. Это можно тупо, но достаточно быстро (1-4 минуты) сделать и в Экселе 2007 (Сopy|Paste Special|Transpose).Однако для PED формата (который подобно Gedcom в генеалогическом анализе, является стандартным для большинства программ стат.анализа генома,) требуется запись в каждой колонке (маркере) отдельного биаллеля генотипа через пробел (white space delimited, например A A) - в то время как сами маркерные колонки записываются через табуляцию (например,A A C G). В исходном же формате 23andme, нет вообще никаких пробеловто есть генотип записывается в столбик без пробела между аллелями, например АА, AC и т.д.Неужели придется разделять аллели пробелом вручную. В случае выборки из 500 кб снип*100 человек, эта просто нереально.

АвторТема: PLINK (Прочитано 29653 раз)

napobo3

PLINK

Mich Glitch

Re: PLINK

napobo3

Re: PLINK

I2a1a

Re: PLINK

Centurion

Re: PLINK

mouglley

Re: PLINK

I2a1a

Re: PLINK

napobo3

Re: PLINK

I2a1a

Re: PLINK

I2a1a

Re: PLINK

napobo3

Re: PLINK

Mich Glitch

Re: PLINK

I2a1a

Re: PLINK

I2a1a

Re: PLINK

I2a1a

Re: PLINK