Теперь -самое интересное.
Попробуем пересчитать (по формуле Серра-Риша) предсказанную Релфайндером степень "родства" с теми "кузенами", с которыми у меня имеются HIR-совпадения по региону локуса MHC -HLAI и HLAII.
В качестве примера, возьму данные по HIR-совпадению с одним из недавно "найденных кузенов" .
BS vs. Vadim Verenich 6 25000000 36000000 7.0 cM 3800
Как использовать эти данные для расчета дистанции? Мы используем приведенные значения HIR в расчете частоты рекомбинации сегмента с=cM/Mb, в нашем случае сM=7 и количество "совпадающих" мегабаз (MB)=11. Частота рекомбинации в нашем случае равна 7/11=0,636.
Подставив полученное значение частоты рекомбинации в первую часть формулы Serra, получим числовое значение эстиматора влияния рекомбинации 1/ln (1-0.636), модульное значение 0.988.
Теперь самое сложное. Как видно из процитированного отрывка статьи Слаткина и Ранналла, значения
x(t) и
y во второй части формулы Serra-Risch берутся из статистическо-эмпирического анализа распределения "нормальных" и "рекомбинировавших" значений аллелей (в статье Слаткина приводятся результаты этого исследования на примере изучения хромосом в выборке французов).
В нашем примере с 6 хромосомой, мы сталкиваемся с двумя трудностями - во-первых, у нас нет априорных данных о частоте распределения " совпадающих сегментов" в структуре исходной популяции.
Во-вторых, мы не знаем, какая комбинация аллелей является предковой, а какая - рекомбинировавшей или мутировавшей.
Первую проблему можно решить следущим способом. Мы определяем начало и конец совпадающего участка 6 хромосомы, затем вводим эти данные в программу Haploview и загружаем данные по этому участку из выборки геномов европейцев (это панель CEU проекта HapMap). Затем анализируем загруженые данные на предмет наличия гаплоблоков. Примеры
анализа 6 хромосомы можно найти в этой теме.Я решил проанализировать в Haploview сектор хромосомы, на который приходится снипы, связанные с генным локусом HLA-B. Для этого анализа я использовал данные по этому участку генома у 205 конвенциональных северо-западных европейцов из панели CEU ("Utah residents with ancestry from northern and western Europe") проекта HapMap. К сожалению, в HapMap из всех снипов ассоциированных с HLA-B имеются данные только по двум SNP - rs1058026 и rs2523608.
Именно они и образуют устойчивый гаплоблок с генетической дистанцией, близкой к ... нулю. В то время как r2 -коэффициент корреляции между частотами аллелями, равен 1. Это означает, что имеется положительная корреляциям между гаметами (гаплотипами) и наиболее распространенными комбинациями аллелей в двух локусах. Это означает, что локусы сцеплены друг с другом, и следовательно имеется существенное неравновесие по сцеплению этих локусов.
Кроме того, в Haploview удалось выявить три наиболее распространенных генотипа по значениям 2 вышеупомянутых локусов у северо-западных европейцев. Это A
G (40,2%)(мой генотип входит в эти 40%), AA (38,5%), CA (21,2%). В другом гаплоблока, расположенном дальше в регионе MHC, имеющим ассоциацию с генными локусами HLA-DQA1 и HLA-DQA2, разнообразие генотипов еще выше.
Тут мы переходим к главному вопросу. Как определить предковый гаплотип, не имея априорных данных о статистических изменений частоты аллеля в течении определенного количества поколений? Слаткин и Раннила дают 2 практических совета, один из которых относительно легко применять даже дилетанту.
Суть приема состоит в вычислении
взвешенного среднеарифметического значения частоты аллеля
по имеющимся данным о частоте распространения генотипов HLA-DQA1 и HLA-DQA2 среди европейцев.
В качестве примера, возьмем данные по самому длинному гаплоблоку (на карте гаплоблоков начинается с позиции 045 до позиции 090). Частоты распределения следущие:
0.195
0.261
0.117
0.102
0.093
0.090
0.044
0.041
0.022
Поскольку общее количество геномов в панеле CEU 180, то взвешенное среднеарифметическое (weighted average) в данном случае составит 0.156, или у -"частота предкового аллеля".
Подставим полученные значение y и наблюдаемую частоту гаплоблока в первой группе (0.195) в формулу ln ((x(t)-y)/(1-y)), получив тем самым логарифмическое выражение коэффициента имбридинга. Его модуль равен 3.075.
Произведение эстиматора рекомбинации и логарифма коэффициента инбридинга составит 0.988*3.075=3.0381.
Наконец, рассчитаем логарифм пропорционального отношения размера HIR к размеру генома.
ln (11000000/299000000)=3.302548301.
Таким образом, дистанция (вернее, нижний порог дистанции) в генеалогических поколениях в приведенном выше примере
BS vs. Vadim Verenich 6 25000000 36000000 7.0 cM 3800
составляет T=3.302548301*3.0381=
10.03 поколений