АвторТема: Фазирование биаллельных гаплоблоков в гаплотипы  (Прочитано 5591 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Кого-нибудь интересует вопрос, каким образом можно фазировать данных биаллельных SNP-маркеров в гаплотипы?

Могу провести мастер-класс. :)

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Очень просто.

Допустим имеем данные по SNP трио -набора: отец, мать и их ребенок.
Поскольку в большинстве случаев SNP данные (от 23ия, ФТДНА, Дикоуд) -диплоидны (A/G, С/T), мы имеем 3 набора диплоидных данных (т.е 6 хромосом, вернее 3 пары хромосом).
Иногда встает практический вопрос, какой гаплоидный элемент вдиплоидном наборе достался от отца, какой от матери, или (в расширенном варианте, когда вместо трио используется расширенный набор близких родственников).
Это достигается путем фазирования (обычно с помощью Байесовской инференции).

Цитировать
An organism's genotype may not uniquely define its haplotype. For example, consider a diploid organism and two bi-allelic loci on the same chromosome such as single-nucleotide polymorphisms (SNPs). The first locus has alleles A and T with three possible genotypes AA, AT, and TT, the second locus having G and C, again giving three possible genotypes GG, GC, and CC. For a given individual, there are therefore nine possible configurations for the genotypes at these two loci, as shown in the Punnett square below, which shows the possible genotypes that an individual may carry and the corresponding haplotypes that these resolve to. For individuals that are homozygous at one or both loci, it is clear what the haplotypes are; it is only when an individual is heterozygous at both loci that the gametic phase is ambiguous.


Given the genotypes for a number of individuals, the haplotypes can be inferred by haplotype resolution or haplotype phasing techniques. These methods work by applying the observation that certain haplotypes are common in certain genomic regions. Therefore, given a set of possible haplotype resolutions, these methods choose those that use fewer different haplotypes overall. The specifics of these methods vary - some are based on combinatorial approaches (e.g., parsimony), whereas others use likelihood functions based on different models and assumptions such as the Hardy-Weinberg principle, the coalescent theory model, or perfect phylogeny. These models are combined with optimization algorithms such as expectation-maximization algorithm (EM), Markov chain Monte Carlo (MCMC), or hidden Markov models (HMM).
« Последнее редактирование: 18 Октябрь 2010, 19:52:40 от Vadim Verenich »

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Могу привести пример с сегментом на 14 хромосоме, на котором у меня есть HIR-match с венгром.
« Последнее редактирование: 28 Октябрь 2010, 17:05:17 от Vadim Verenich »

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8

Итак, что нам понадобиться для успешного выполнения урока (туториала):

1. Файл с диплоидными генотипами (SNP)  от 23andme, (FTDNA, Decodeme .....)
2. Данные о совпадающих участках хромосом (выявленных в сервисах Family Inheritance, Advanced Family Inheritance или аналогичных сервисах FTDNA, Decodeme, а также HIRsearch).
3. Геномные браузеры (я рекомендую HapMap Genome browser, поскольку мы будем пользоваться данными этого проекта).
4. Генотипы  хромосомного участка (по которому имеется так называемый УПС), взятые из проектов HapMap (можно пользоваться HapMap Phase I,II,III, я предпочитаю HapMap Phase II). Рекомендую для большинства неашкеназийских сегментов выбирать данные панели генотипов СEU.
5. Программное обеспечение:
5.1. программное обеспечение для работы с базами данных (подойдет любое, я использую в целях наглядности Microsoft Access)для фильтровки и объединения своих генотипных данных по сравниваемому участку с аналогичными данными HapMap.
5.2. программное обеспечение для установление фазы диплоидного генотипа (резолюции гаплотипа) - я использую UNIX версию программы SNPHAP
для удаленного запуска на сервере в фоновом режиме. Поскольку эта программа может работать на сервере сутками, если не месяцами, то рекомендую пользоваться юниксовскими версиями этой программы (в качестве альтернативы можно предложить юниксовский порт стандартной программы PHASE).

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Итак, переходим к туториалу.

1. Выбираем в Advanced Family Inheritance (23andme) любого из генетических кузенов, задетектированных Relative Finder. В качестве примера я выбрал УПС-совпаденца по 14 хромосоме



2. Смотрим там же данные УПСа (округленные до целых значений стартовую базу и конечную базу).

В данном случае это 25000000 и 29000000. Записываем их в  следущем виде chr14:25000000..29000000


« Последнее редактирование: 19 Октябрь 2010, 22:16:53 от Vadim Verenich »

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
3. Идем на сайт проекта HapMap.

В крайнем левом окне вводим параметры для поиска генотипов требуемого региона chr14:25000000..29000000



4. Просматриваем искомый сегмент (обозначен желтой полоской) в геномном браузере (интересно, что количество снипов на 500 килобаз в данном регионе чуть ниже среднего, что заставляет задуматься).
В правом выпадающем меню выбираем опцию Download SNP genotypes. Переходим к следущему меню.
Здесь можно задавать популяционную панель и параметры скачки. В данном примере выбрана центрально-североевропейская панель CEU и параметр загрузки файла напрямую на жесткий диск.
« Последнее редактирование: 19 Октябрь 2010, 22:29:42 от Vadim Verenich »

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
5. Скачиваем генотипы к себе на компьютер. Содержимое файла выглядит следущим образом:





6. Переходим к следущему пункту. Предварительно импортируем генотипы сравниваемого участка из raw-данных результата своего теста в 23ия, ФТДНА, или Дикодми, а также генотипы сравниваемого участка из данных своих родственников. Важна помнить, что количество снипов в чипе 23ия, ФТДНА, Дикодми и комбинированных чипсетов проекта HapMap разное, поэтому в базе данных нам нужно будет отфильтровать те снипы HapMap, которых нет в данных HapMap. Те, кто умудрился протестироваться одновременно в 23ия, ФТДНА и Дикодми, будут в наибольшем выигрыше, так как придется отсеивать минимальное количество снипов. Нужно также помнить, что коммерческие снип-чипсеты (по крайней мере, 23ия и Дикодми) содержат некоторое количество снипов, коих нет в сете HapMap. Поэтому отсеивание будет вестись в обе стороны.

Фильтрация снипов в базе данных производится по уникальному ключу-идентификатору, коим является rs-номер снипа (эта номенклатура одинакова во всех используемых сетах - 23ия, ФТДНА, Дикодми, ХапМап).

После нехитрых комбинаций приходим к следущему виду объединненой базы данных генотипов анализируемого фрагмента 14 хромосомы (мои личные данные, данные матери + данные 90 европейских индивидов из панели CEU).

 
« Последнее редактирование: 19 Октябрь 2010, 22:33:11 от Vadim Verenich »

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
6. Производим экспорт данных генотипов по совпадающему фрагменту 14 хромосомы из Access в Excel



7. Далее подготавливаем файл к удобоваримому для фазирования формату (этих форматов много, я выбрал тот, в котором нужно минимально модифицировать исходные комбинированные данные 23ия+HapMap).

« Последнее редактирование: 19 Октябрь 2010, 22:37:25 от Vadim Verenich »

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
8.После того как файл будет готов, копируем его содержимое в текстовой файл. Заменяем неопределенные аллели NN на ??. После чего исходный файл для программы SNAPHAP готов.



9.Заходим в UNIX-овский шелл и запускаем программу ./snaphap c показанными на картинке параметрами.

« Последнее редактирование: 19 Октябрь 2010, 22:40:11 от Vadim Verenich »

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
10. Процесс пошел. Но процесс этот не быстрый, и эта одна из причин использования серверных возможностей (где программа может работать месяцами). Например, на байесовскую инференцию- фазировку используемых в данном примере генотипов 5288 снипов ("локусов") из фрагмента 14 хромосомы 92 индвидов ушло примерно 8 часов.



11. После окончания цикла фазирования результаты (фазированные гаплотипы) сохраняются в отдельном файле. В данном случае у 92 индивидов с помощью байесовской инференции было выявлено 937  "5288 локусных гаплотипа", причем 315 из этих гаплотипов имеют кумулятивную апостериорную вероятность 1.00.


« Последнее редактирование: 19 Октябрь 2010, 22:56:06 от Vadim Verenich »

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
12. Вот так выглядит фрагмент файла с гаплотипами на выходе (гаплотипная цепочка снипов, в самом конце которой два столбика цифр, первый из которых - априорная вероятность гаплотипа, вторая -кумулятивная вероятность).

« Последнее редактирование: 19 Октябрь 2010, 22:59:25 от Vadim Verenich »

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
12. Вот так выглядит фрагмент файла с гаплотипами на выходе (гаплотипная цепочка снипов, в самом конце которой два столбика цифр, первый из которых - априорная вероятность гаплотипа, вторая -кумулятивная вероятность).

http://www.image-upload.net/images/q2zbcq3g0ku6mr6zjyaw.jpg

13. Следущим шагом является выравнивание выявленных гаплотипов (здесь проблема, какой из гаплотипов принять за предковый).

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Увы, картинки не загружаются.

Придется перезалить на другой ресурс.

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Доверился немецкому качеству, перезалив картинки на немецкий сервер.

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Закрывая тему, хотелось бы отметить, что г-н Ковач действительно является человеком с преимущественно ашкеназско-сефардской родословной. Преимущественно, но не полностью.
Одна из его предковых, (непрямых) линий восходит к знаменитой фамилии венгерских палатинов de Vereb (это латинское написание, а в адаптированом венгерском написании это выглядит как Vereb?lyi csal?d). Род является ответлением клана Зак, и упоминается еще в 12 веке (в дословном переводе с венгерского Vereb означает "воробей", а Verebelyi -образованая от этого прозвища фамилия).

Краткая справка

Цитировать
Vereb?ly (vereb?lyi). ?sr?gi csal?d, mely a XII. sz?zadban ?gazott ki a Z?ch-nemzets?gb?l. Ez a Vereb, k?s?bb Verebi, majd Vereb?ly n?ven szerepl? birtokos nemes csal?d nev?t eredetileg a N?gr?d-v?rmegyei F?th ?s Egyh?zas Vereb birtokair?l nyerte. K?s?bb Heves-, Bars-, Nyitra-, Zempl?n-, Szabolcs-, Bereg-, Szatm?r-, Hont-, Pestv?rmegy?kben, majd a Dun?nt?l is Gy?r-, Vas-, Veszpr?m-, Baranya-, Zala- ?s Somogyv?rmegy?kben tal?lkozunk vele. Birtokaiknak k?z?s t?rzsb?l val? sz?rmaz?s?t bizony?tja az a k?r?lm?ny, hogy Vereb 80Gy?rgy?t, P?lt ?s Simont s?r?n tal?ljuk egy?tt ?s k?l?n is N?gr?d-, Bars-, Trencs?n-, Baranyav?rmegy?kben birtokadom?nyokkal, z?logbaad?ssal, v?tellel kapcsolatban, m?sr?szt vereb?lyi el?n?vvel szerepelnek a k?l?nb?z? megy?kben szerepl? birtokosok, 1478-ban a n?gr?dmegyei Gy?rgy mint Trencs?n-v?rmegyei birtokos a nyitrai k?ptalan el?tt, 1563-ban Mih?ly Baranya-megyei birtokos a zalav?ri convent el?tt, 1564-ben P?ter a leleszi convent el?tt, 1604-ben Istv?n ?s J?nos a Nyitra (ma Bars) megyei Vereb?ly birtokkal a Vasv?r-szombathelyi sz?kesk?ptalan el?tt, ugyancsak Vereb?ly de eadem-re sz?l a csal?d birtok?ban lev? L?szl? ?s fiai J?nos, Ferenc, Mih?ly nev?re ki?ll?tott armalis lev?l, melyet 1581-ben II. Rudolf adott ki.
C?mer: k?k mez?ben z?ld halmon ugr? szarvas; l?ba el?tt feh?r tin?fej; takar?k: k?k-arany, v?r?s-ez?st.
A csal?dnak 1227-ben a legr?gibb okm?nyokban (Dl. 134.) szerepl? tagjai Henche comes Zakari?s de Vereb fia a Z?ch-nemzets?ggel kapcsolatban

 

 

 

Z?ch, b?r?. C?mereslevelet 1765. okt. 8. Z. J?zsef ?s gyermekei kaptak. (LR. XLVII/345.) A b?r?i rangot 1801. febr. 4. Z. Antal Ferenc ?s gyermekei nyerik. (LR. LX/498.) A csal?dnak az 1826. okt. 22. elhalt Ferencben magvaszakadt. – V?. NI. XII/259–260.; Siebm. 727–8.; K?sz. 439.; Szerencs 634.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.