АвторТема: PLINK  (Прочитано 29653 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн napobo3Автор темы

  • Сообщений: 1257
  • Страна: il
  • Рейтинг +348/-2
  • Y-ДНК: J-FGC5231
  • мтДНК: N1b2
PLINK
« : 01 Ноябрь 2009, 01:39:10 »
Спасибо, Михаил
 
Но тут вопрос скорее в том, каким образом различать случайное распределение тех же снипов (например) или аллелей от неслучайного распределения (как Вы понимаете, оно имеет для большинства людей, которые тестировались с целью получения информации генеалогического характера, сугубо практическое значение кровного родства). То есть тут присутствует некая аналогия с гомоплазией, которая оказывает весьма  ощущаемое влияние на филогенетические реконструкции в случае с Y-STR.
Согласно современным представлениям в генетике, ответ на вопрос о случайности/закономерности частоты совпадения фрагментов генома в популяции и дает анализ LD. Говоря по простому, меня интересует вопрос практического плана, каким образом учитывается феномен равновесности или неравновесности сцепления при поиске родственников RelativeFinder? И учитывается ли вообще?
Насколько я понимаю, длины УПСов на 3 порядка больше чем блоки снипов, похожесть которых обусловлена LD.
Миллионы базовых пар по сравнению с тысячами.
Вот, например средние размеры блоков, приведенные в статье Олшена: 36.8 - 40.5 kb (тысяч базовых пар)

Спасибо Леон за ссылку. Ваша мысль понятна. В этой статье в ходе анализа действительно из примерно 435,632 снипов у двух разных еврейских популяций были выделены гаплоблоки размером в тысячи (36.8 kb против 40.5 kb). На самом деле там применялось два разных метода (и программы)expectation-maximization haplotype phase inference (HAP) и pairwise linkage disequilibrium (LD) statistics (Haploview). Тем не менее, различие в базовых размерах еще не объясняет неприменимость методов LD к участком генома, близких к размерам HIR.
Конечно же не объясняет. Такой попытки не было.
А для желающих - программа анализа и визуализации LD гаплоблоков.
« Последнее редактирование: 02 Ноябрь 2009, 20:10:39 от Mich Glitch »

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: PLINK
« Ответ #1 : 01 Ноябрь 2009, 04:40:21 »
certain known high LD regions == области, находящиеся под сильным влиянием LD, в их пределах может находиться много снип-блоков, указанные границы - не границы блоков, а размеры областей.
Речь идёт именно о границах, а не о размерах. О тех зонах, снипы расположенные в котором не принимаются во внимание из-за высокого уровня LD.

Оффлайн napobo3Автор темы

  • Сообщений: 1257
  • Страна: il
  • Рейтинг +348/-2
  • Y-ДНК: J-FGC5231
  • мтДНК: N1b2
Re: PLINK
« Ответ #2 : 01 Ноябрь 2009, 10:23:15 »
certain known high LD regions == области, находящиеся под сильным влиянием LD, в их пределах может находиться много снип-блоков, указанные границы - не границы блоков, а размеры областей.
Речь идёт именно о границах, а не о размерах. О тех зонах, снипы расположенные в котором не принимаются во внимание из-за высокого уровня LD.
Именно так. Область большая, а в ней - маленькие снип-блоки, результат LD. Маленькие, но много...
Размер - в среднем 50к. А размер области - как Вы написали.


Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Re: PLINK
« Ответ #3 : 01 Ноябрь 2009, 16:37:32 »
Может попросить ув. В.А.Степанова из НИИ МГ СО РАМН, Томск прокомментировать ситуацию с неравновесным сцеплением? Этот тот самый Степанов, который читал на съезде ВОГиС доклад "Генетическая история населения Евразии: данные Y-  и Х-хромосомных гаплотипов и аутосомных SNP." Судя по фотоотчету, он применял в числе прочего и анализ нерав.сцепления, в программе HapMap. http://forum.molgen.org/index.php/topic,354.msg5752.html#msg5752.  Слайды с LD анализом X-хромосомного локуса ZFX http://forum.molgen.org/index.php/topic,354.msg5752.html#msg5752
 
Кто-нибудь из томчан имеет выход на Степанова?

Оффлайн Centurion

  • 100% Earth (Solar System) genofond
  • Администратор
  • *****
  • Сообщений: 9548
  • Страна: ru
  • Рейтинг +571/-2
Re: PLINK
« Ответ #4 : 01 Ноябрь 2009, 17:02:33 »
Цитировать
Кто-нибудь из томчан имеет выход на Степанова?
Владимир Харьков (VovanX) работает под руководством В. Степанова.

Оффлайн mouglley

  • ...
  • Сообщений: 7105
  • Страна: hr
  • Рейтинг +434/-7
  • Я знаю, что познаю всё.
    • Записки Маугли
  • Y-ДНК: N1c1-L1025
  • мтДНК: J1c3
Re: PLINK
« Ответ #5 : 01 Ноябрь 2009, 17:47:29 »
А меня бы удовлетворили комментарии самого уважаемого VovanX, как одного из наиболее известных во всём мире специалистов в данной области.

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Re: PLINK
« Ответ #6 : 01 Ноябрь 2009, 18:29:08 »
Спасибо, Михаил
 
Но тут вопрос скорее в том, каким образом различать случайное распределение тех же снипов (например) или аллелей от неслучайного распределения (как Вы понимаете, оно имеет для большинства людей, которые тестировались с целью получения информации генеалогического характера, сугубо практическое значение кровного родства). То есть тут присутствует некая аналогия с гомоплазией, которая оказывает весьма  ощущаемое влияние на филогенетические реконструкции в случае с Y-STR.
Согласно современным представлениям в генетике, ответ на вопрос о случайности/закономерности частоты совпадения фрагментов генома в популяции и дает анализ LD. Говоря по простому, меня интересует вопрос практического плана, каким образом учитывается феномен равновесности или неравновесности сцепления при поиске родственников RelativeFinder? И учитывается ли вообще?
Насколько я понимаю, длины УПСов на 3 порядка больше чем блоки снипов, похожесть которых обусловлена LD.
Миллионы базовых пар по сравнению с тысячами.
Вот, например средние размеры блоков, приведенные в статье Олшена: 36.8 - 40.5 kb (тысяч базовых пар)

Спасибо Леон за ссылку. Ваша мысль понятна. В этой статье в ходе анализа действительно из примерно 435,632 снипов у двух разных еврейских популяций были выделены гаплоблоки размером в тысячи (36.8 kb против 40.5 kb). На самом деле там применялось два разных метода (и программы)expectation-maximization haplotype phase inference (HAP) и pairwise linkage disequilibrium (LD) statistics (Haploview). Тем не менее, различие в базовых размерах еще не объясняет неприменимость методов LD к участком генома, близких к размерам HIR.
Конечно же не объясняет. Такой попытки не было.
А для желающих - программа анализа и визуализации LD гаплоблоков.

Спасибо, начал изучать форматы PED и MAP. Формат фактически тождествен формату Raw Data 23ия, с небольшими изменениями. Однако основной формат PED более сложен, там кодируется дополнительная информация о генотипе, идентификационные номеры индивидов в семье и самих индивидов, пол данные о заболевании и так далее. Впрочем, эти данные можно пропустить, а Family заменить на этническую принадлежность. Таким образом мы можем придти к следущему формату
Цитировать
FAM001  1  0 0  1  2  A A  G G  A C
FAM001  2  0 0  1  2  A A  A G  0 0
 
в котором FAM001 будет обозначать группу людей, 1 и 2 - номер индивидов в группе. Каждый индивид записан с новой строчки.
 
Как видно - основаня трудность, это необходимость повернуть (транспонировать) данные о базовых парах в формате  Raw Data на 90 градусов
 

 Another possible file-format called a transposed fileset, containing two text files: one (TPED) containing SNP and genotype information where one row is a SNP; one (TFAM) containing individual and family information, where one row is an individual.

The first 4 columns of a TPED file are the same as a standard 4-column MAP file. Then all genotypes are listed for all individuals for each particular SNP on each line. The TFAM file is just the first six columns of a standard PED file. In otherwords, we have just taken the standard PED/MAP file format, but swapped all the genotype information between files, after rotating it 90 degrees. For each, the above example PED/MAP fileset
     <---- normal.ped ---->                  <--- normal.map --->      1 1 0 0 1  1  A A  G T                  1  snp1   0  5000650      2 1 0 0 1  1  A C  T G                  1  snp2   0  5000830      3 1 0 0 1  1  C C  G G      4 1 0 0 1  2  A C  T T      5 1 0 0 1  2  C C  G T      6 1 0 0 1  2  C C  T T  would be represented as TPED/TFAM files:
« Последнее редактирование: 01 Ноябрь 2009, 18:35:32 от Vadim Verenich »

Оффлайн napobo3Автор темы

  • Сообщений: 1257
  • Страна: il
  • Рейтинг +348/-2
  • Y-ДНК: J-FGC5231
  • мтДНК: N1b2
Re: PLINK
« Ответ #7 : 01 Ноябрь 2009, 19:57:26 »
...Как видно - основаня трудность, это необходимость повернуть (транспонировать) данные о базовых парах в формате  Raw Data на 90 градусов
Если это - основная трудность, то мы в отличом положении.
Поверну данные под любым углом, только определите под каким :)
Естественно, длина строчки будет миллион символов, а размер файла - N МВ, где  N - количество строчек/индивидуумов.
Но это все технические детали, а не трудности.

 

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Re: PLINK
« Ответ #8 : 01 Ноябрь 2009, 23:32:17 »
Т.е в формате Plink запись генома должна выглядеть  примерно также, как в экселовской таблице Адриано, только повернута на 90 градусов.

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Re: PLINK
« Ответ #9 : 02 Ноябрь 2009, 17:01:10 »
Протестировал сегодня предложенный мною вариант записи генома 23andme на примере Y-хросомоы 27 представителей I2a2. Собственно, в результате теста важны были не результаты анализа, а проверка формата файла (к тому же, исходные файлы в целях простоты изменены). Видно, что можно продолжать в этом направлении.
 
Результаты запусков и кое что из статистику в прикрепленном ниже файле.

Оффлайн napobo3Автор темы

  • Сообщений: 1257
  • Страна: il
  • Рейтинг +348/-2
  • Y-ДНК: J-FGC5231
  • мтДНК: N1b2
Re: PLINK
« Ответ #10 : 02 Ноябрь 2009, 17:25:16 »
Протестировал сегодня предложенный мною вариант записи генома 23andme на примере Y-хросомоы 27 представителей I2a2. Собственно, в результате теста важны были не результаты анализа, а проверка формата файла (к тому же, исходные файлы в целях простоты изменены). Видно, что можно продолжать в этом направлении.
 
Результаты запусков и кое что из статистику в прикрепленном ниже файле.
Предлагаю выделить отдельную под-ветку для этой весьма технической дискуссии. В текущей ветке все в куче - и советы новичкам, и PLINK - можно заблудиться.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: PLINK
« Ответ #11 : 02 Ноябрь 2009, 20:11:23 »
Предлагаю выделить отдельную под-ветку для этой весьма технической дискуссии.
Разделил!
:)

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Re: PLINK
« Ответ #12 : 17 Ноябрь 2009, 10:47:37 »
Руки чешутся опробывать большие сэмпл (около 100 индивидов) в программах типа Structure (кластерный анализ), Plink (комплексный пакет статистического анализа), Haploview (анализ сцепления и тому подобное).
С другими программами ряд проблем. Первая проблема в записи формата, т.е. формат  Raw Data (c 4 столбцами -индификатор снипа, номер хромосомы,  позиция на хромосоме и генотипа) перед обработкой в программе необходимо конвертировать. И если эта проблема решаема, то более серьезная проблема связана с вычислительной мощностью/памятью компьютеров. Например, текстовой (!) файл из 100 сэмплов генома по 500000 снипам будет весит около 600 Мб.  Java-программа Structure с графическим интерфейсом такой объем уже не потянет. Нужно попробывать запуск через коммандную строку.

Вообщем и целом головняк. Там еще куча проблем с фазированием гаплотипов из сырых данных 23ия, и т.д.

PS. И еще я ищу умного человека, который подсказал бы, как быстро превращать файлы формата Raw Data в формат linkage file (PED+MAP). Там нужно поменять направление в котором записывается генотип на 90 градусов против часовой стрелки.

Например, вот например абстрактная строка в файле Raw Data

rs123456  7  12345678  AG  (первая колонка -  номер снипа, вторая-номер хромосомы, третья-позиция пары, четвертая -собственно генотип).

Эту строку нужно поменять в следущий формат
3 1 0 0 1 1 13 ........ (первая колонка - индификатор группы, вторая индификатор индивида, 3 и 4 -идентификатор матери и отца (могут быть игнорированы, в данном случае задаются значения 0 0), 5  - пол, 6-фенотип, под которым понимается либо статус подверженности заболевания (1-affected, 2 -unaffected), либо - как в нашем случае - принадлежность к одной из двух групп (2- анализируемая группа 1-контрольная группа). 
Дальше начинается самая сложная часть -с 7 идентификатора идет запись сообственно генотипа, биаллельные генотипы записываются в две колонки (в формате RawData они записываются в одну колонку)с пробелом между предыдущим и следущим генотипом. Используется следущая кодировка: 1=A, 2=C, 3=G, T=4. 0 -обозначает пропущенный или отсутствующий аллель.
Понятно, что при небольшом количестве снипов и маленькой выборке все это можно сделать и вручную, но в случае с 23ия этот процесс подготовки файлов может расстянутся на месяца.
 :(
« Последнее редактирование: 17 Ноябрь 2009, 11:52:46 от Vadim Verenich »

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Re: PLINK
« Ответ #13 : 17 Ноябрь 2009, 11:54:01 »
В общем - нужны идеи. Мы ищем таланты.(с)

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Re: PLINK
« Ответ #14 : 18 Ноябрь 2009, 02:18:22 »
Разобрался сам с проблемой транспонирования колонки и ряда. Это можно тупо, но достаточно быстро (1-4 минуты) сделать и в Экселе 2007 (Сopy|Paste Special|Transpose).Однако для PED формата (который подобно Gedcom в генеалогическом анализе, является стандартным для большинства программ стат.анализа генома,) требуется запись в каждой колонке (маркере) отдельного биаллеля генотипа через пробел (white space delimited, например A A) - в то время как сами маркерные колонки записываются через табуляцию (например,A A   C G). В исходном же формате 23andme, нет вообще никаких пробеловто есть генотип записывается в столбик без пробела между аллелями, например АА, AC и т.д.Неужели придется разделять аллели пробелом вручную. В случае выборки из 500 кб снип*100 человек, эта просто нереально.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.