Тема: Формула расчета генеалогической дистанции по локусам аутосомных хромосом (Прочитано 15755 раз)

I2a1a · « : 24 Май 2010, 05:28:51 »

M. Slatkin and B. Rannala, Estimating allele age. Annual Reviews of Genomics and Human Genetics 1: 225-249.

I2a1a · « **Ответ #1 :** 24 Май 2010, 14:19:37 »

?-ln??(d/299000000)?1/ln?2 ?(-ln?(1/C) )?F

Перед тем, как объяснить принципы расчета генеалогического возраста сегмента по формуле Serre-Risch, давайте сравним формулу Serre (в том виде, в каком она приведена в статье Слаткина и Ранниллы) и формулу расчета генеалогической дистанции, использованную мной для расчета генеалогической степени родства по результатам частичных совпадений геномных «регионов» у тестантов 23andme.
Итак, при сопоставлении формулы Serre-Risch c использованной мною формулой расчетов видно, что формула Serre-Risch состоит из 2 компонентов (множителей), в то время как «моя» формула состоит из 4. Основное отличие формул заключается в том, что формула Serre-Risch была выведена специально для вычисления отдельных аллельных локусов (например, в работе Serre et.all высчитывался возраст аллеля E1-delta F508). Поэтому использовать эту формулу для расчета генеалогических поколений по данным «совпаденцев» в Relative Finder, Family Finder и HIRsearch –некорректно, поскольку в вышеупомянутых «инструментах» отсев хромосомных сегментов производится по другим критериям (пороговым значениям генетической дистанции, исчисляемой в сентиморганах, и «плотности» снипов на «совпадающем» сегменте). Более важным критерием отличия принципов расчета возраста по приведенным формулам является то, что в первом случае (формула Серр-Риша) определяется возраст аллелей одного генетически сцепленного локуса; в то время как при расчетах по второй формуле используется модель «контига», т.е рассматривается некий HIR-регион (IBD и IBS), нуклеотидная последовательность которого (т.н. «контиг») наполовину (по одной из ДНК цепочек) идентична у двух сравниваемых лиц.
Принимая во внимание вышесказанное, для расчета возраста не отдельных аллелей, а протяженных геномных регионов, к 2 последним множителям в моей формуле (которые в «физическом» смысле близки 2 множителям в формуле Серр-Риш –см.ниже) я добавил логарифмическое выражение, которое, по своей сути сводится к описанию экспонентного «уменьшения» физической длины совпадающего сегмента по мере возрастания генеалогических поколений, отделяющих двух сравниваемых лиц (т.е это положении действительно для частного случая закона Бернули о превращении веществ) :
-ln(d/299000000)/ln2, где d- величина или длина совпадающего участка генома в базовых парах, 299000000 – константа (величина генома в базовых парах).
Возвращаясь к двум последним множителям в формуле расчетов генеалогической дистанции по хромосомным регионам, то, как я и говорил, они по своей «физической» сути аналогичны двум компонентам формулы Серр-Риша. В частности, первый компонент формулы Серр-Риша: 1/ln (1-c), где с - величина частоты рекомбинации аллеля – имеет тот же смысл, что и использованный в моей формуле эстиматор рекомбинации (-ln (1/Cm), с той лишь разницей, что в формуле Серр-Риша используется частота рекомбинации (т.е Сm/Mb), в моей формуле – Сm – генетическая дистанция в сентиморганах.
Самой проблематичной частью моей формулы является F, который равен натуральному логарифму коэффициента инбридинга, который в определенных случаях (изолированные популяции) идентичен коэффициенту инбридингового угасания гетерозиготности. В формуле Серр-Риша нет аналога коэффициента угасания гетерозиготности или коэффициента инбридинга. Последняя часть формулы Серр-Риша : ln((x(t)-y)/1-y) –представляет собой дробь, в числителе которой содержится разность между x(t) ожидаемой частотой аллеля в поколении и y –постоянной «нормальной» частотой аллеля в нормальных хромосомах, эта частота считается константной с момента, когда произошла мутация. В знаменателе дроби разность между 1 (частота аллеля в момент 0) и у («нормальной» частотой). Иными словами, в этой части формулы задается соотношение реального изменения частоты аллелей к предпологаемому исходя из принципа равновесия Харди-Вейнберга изменению частоты аллелей. То есть смысл этого выражения идентичен рассчитываемому на основе F-статистики и принципа Харди-Вейнберга (в популяции бесконечно большого размера, в которой не действует отбор, не идет мутационный процесс, отсутствует обмен особями с другими популяциями, не происходит дрейф генов, все скрещивания случайны) коэффициента инбридинга.
Следовательно, последний член произведения в формуле Серр-Риш имеет тот же биологический смысл, что и логарифм коэффициента инбридинга F в «моей» формуле. Как мы увидим далее на практических примерах, правильная оценка величины этого параметра имеет определяющее значение при оценке достоверной генеалогической дистанции между «HIR-совпаденцами» в RF, FF и HiRsearch.

I2a1a · « **Ответ #2 :** 24 Май 2010, 17:41:57 »

Теперь -самое интересное.

Попробуем пересчитать (по формуле Серра-Риша) предсказанную Релфайндером степень "родства" с теми "кузенами", с которыми у меня имеются HIR-совпадения по региону локуса MHC -HLAI и HLAII.

В качестве примера, возьму данные по HIR-совпадению с одним из недавно "найденных кузенов" .

BS vs. Vadim Verenich 6 25000000 36000000 7.0 cM 3800

Как использовать эти данные для расчета дистанции? Мы используем приведенные значения HIR в расчете частоты рекомбинации сегмента с=cM/Mb, в нашем случае сM=7 и количество "совпадающих" мегабаз (MB)=11. Частота рекомбинации в нашем случае равна 7/11=0,636.

Подставив полученное значение частоты рекомбинации в первую часть формулы Serra, получим числовое значение эстиматора влияния рекомбинации 1/ln (1-0.636), модульное значение 0.988.

Теперь самое сложное. Как видно из процитированного отрывка статьи Слаткина и Ранналла, значения x(t) и y во второй части формулы Serra-Risch берутся из статистическо-эмпирического анализа распределения "нормальных" и "рекомбинировавших" значений аллелей (в статье Слаткина приводятся результаты этого исследования на примере изучения хромосом в выборке французов).

В нашем примере с 6 хромосомой, мы сталкиваемся с двумя трудностями - во-первых, у нас нет априорных данных о частоте распределения " совпадающих сегментов" в структуре исходной популяции.
Во-вторых, мы не знаем, какая комбинация аллелей является предковой, а какая - рекомбинировавшей или мутировавшей.

Первую проблему можно решить следущим способом. Мы определяем начало и конец совпадающего участка 6 хромосомы, затем вводим эти данные в программу Haploview и загружаем данные по этому участку из выборки геномов европейцев (это панель CEU проекта HapMap). Затем анализируем загруженые данные на предмет наличия гаплоблоков. Примеры анализа 6 хромосомы можно найти в этой теме.

Я решил проанализировать в Haploview сектор хромосомы, на который приходится снипы, связанные с генным локусом HLA-B. Для этого анализа я использовал данные по этому участку генома у 205 конвенциональных северо-западных европейцов из панели CEU ("Utah residents with ancestry from northern and western Europe") проекта HapMap. К сожалению, в HapMap из всех снипов ассоциированных с HLA-B имеются данные только по двум SNP - rs1058026 и rs2523608.
Именно они и образуют устойчивый гаплоблок с генетической дистанцией, близкой к ... нулю. В то время как r2 -коэффициент корреляции между частотами аллелями, равен 1. Это означает, что имеется положительная корреляциям между гаметами (гаплотипами) и наиболее распространенными комбинациями аллелей в двух локусах. Это означает, что локусы сцеплены друг с другом, и следовательно имеется существенное неравновесие по сцеплению этих локусов.

Кроме того, в Haploview удалось выявить три наиболее распространенных генотипа по значениям 2 вышеупомянутых локусов у северо-западных европейцев. Это AG (40,2%)(мой генотип входит в эти 40%), AA (38,5%), CA (21,2%). В другом гаплоблока, расположенном дальше в регионе MHC, имеющим ассоциацию с генными локусами HLA-DQA1 и HLA-DQA2, разнообразие генотипов еще выше.

Тут мы переходим к главному вопросу. Как определить предковый гаплотип, не имея априорных данных о статистических изменений частоты аллеля в течении определенного количества поколений? Слаткин и Раннила дают 2 практических совета, один из которых относительно легко применять даже дилетанту.
Суть приема состоит в вычислении взвешенного среднеарифметического значения частоты аллеля
по имеющимся данным о частоте распространения генотипов HLA-DQA1 и HLA-DQA2 среди европейцев.

В качестве примера, возьмем данные по самому длинному гаплоблоку (на карте гаплоблоков начинается с позиции 045 до позиции 090). Частоты распределения следущие:
0.195
0.261
0.117
0.102
0.093
0.090
0.044
0.041
0.022
Поскольку общее количество геномов в панеле CEU 180, то взвешенное среднеарифметическое (weighted average) в данном случае составит 0.156, или у -"частота предкового аллеля".
Подставим полученные значение y и наблюдаемую частоту гаплоблока в первой группе (0.195) в формулу ln ((x(t)-y)/(1-y)), получив тем самым логарифмическое выражение коэффициента имбридинга. Его модуль равен 3.075.

Произведение эстиматора рекомбинации и логарифма коэффициента инбридинга составит 0.988*3.075=3.0381.

Наконец, рассчитаем логарифм пропорционального отношения размера HIR к размеру генома.
ln (11000000/299000000)=3.302548301.

Таким образом, дистанция (вернее, нижний порог дистанции) в генеалогических поколениях в приведенном выше примере

Цитировать

BS vs. Vadim Verenich 6 25000000 36000000 7.0 cM 3800

составляет T=3.302548301*3.0381=10.03 поколений

I2a1a · « **Ответ #3 :** 24 Май 2010, 18:05:31 »

Какова будет генетической дистанции в случае экспоненциально расстущего населения?
Математик Лабуда и др., используя в качестве основы модель роста популяции Лурия-Дельбрюка, показал что оценка генеалогической дистанции является искаженной без учета коэффициента роста популяции.
Поправка Лабуда к формуле Серра-Риша сводится к следущей алгебраической нотации:

?(1/r)/ln[ce^r/(e^r ? 1)],

где c-частота рекомбинации, е- число Эйлера (2,718), r- частота роста популяции, в нашей модели следуя работе ЛаШанс (2008), я принял за частоту роста популяции число "золотого сечения" (фи) = 1,618.

Итак, подставив все значения в формулу
?(1/1.618)/ln[0.636*2.718^1.618/(2.718^1.618 ? 1)], мы получим величину увеличивающей поправки Лабуда -0.1430. В случае дистанции в 10 генеалогических поколений, поправка Лабуда добавляет полтора поколения.

С учетом поправки Лабуда, дистанция между мной и БС составляет 10.03+1.43 или 11.5 поколений.
Для сравнения, предикт родства с БС в RF -5th Cousin (4th to 10th Cousin)

I2a1a · « **Ответ #4 :** 27 Май 2010, 01:05:30 »

95% доверительный интервал 11.5 +- 1.372

Nimissin · « **Ответ #5 :** 15 Август 2010, 12:11:04 »

Цитата: Vadim Verenich от 24 Май 2010, 14:19:37

?-ln??(d/299000000)?1/ln?2 ?(-ln?(1/C) )?F

Принимая во внимание вышесказанное, для расчета возраста не отдельных аллелей, а протяженных геномных регионов, к 2 последним множителям в моей формуле (которые в «физическом» смысле близки 2 множителям в формуле Серр-Риш –см.ниже) я добавил логарифмическое выражение, которое, по своей сути сводится к описанию экспонентного «уменьшения» физической длины совпадающего сегмента по мере возрастания генеалогических поколений, отделяющих двух сравниваемых лиц (т.е это положении действительно для частного случая закона Бернули о превращении веществ) :
-ln(d/299000000)/ln2, где d- величина или длина совпадающего участка генома в базовых парах, 299000000 – константа (величина генома в базовых парах).

Уважаемый Vadim Verenich, а почему константа равна 299 000 000, а не 2 990 000 000? Ведь размер рассматриваемого генома 2.99 Gb, а не 299 mb?

I2a1a · « **Ответ #6 :** 15 Август 2010, 12:19:23 »

Цитата: Nimissin от 15 Август 2010, 12:11:04

Уважаемый Vadim Verenich, а почему константа равна 299 000 000, а не 2 990 000 000? Ведь размер рассматриваемого генома 2.99 Gb, а не 299 mb?

Это опечатка. Должно быть 2 990 000 000.

Nimissin · « **Ответ #7 :** 15 Август 2010, 12:44:56 »

Цитата: Vadim Verenich от 24 Май 2010, 17:41:57

Наконец, рассчитаем логарифм пропорционального отношения размера HIR к размеру генома.
ln (11000000/299000000)=3.302548301.

Таким образом, дистанция (вернее, нижний порог дистанции) в генеалогических поколениях в приведенном выше примере

Цитировать
BS vs. Vadim Verenich 6 25000000 36000000 7.0 cM 3800

составляет T=3.302548301*3.0381=10.03 поколений

Тогда ln(11 000 000/ 2 990 000 000) = -5.605. Верно?

I2a1a · « **Ответ #8 :** 15 Август 2010, 12:50:00 »

Цитата: Nimissin от 15 Август 2010, 12:44:56

Цитата: Vadim Verenich от 24 Май 2010, 17:41:57

Наконец, рассчитаем логарифм пропорционального отношения размера HIR к размеру генома.
ln (11000000/299000000)=3.302548301.

Таким образом, дистанция (вернее, нижний порог дистанции) в генеалогических поколениях в приведенном выше примере

Цитировать
BS vs. Vadim Verenich 6 25000000 36000000 7.0 cM 3800

составляет T=3.302548301*3.0381=10.03 поколений

Тогда ln(11 000 000/ 2 990 000 000) = -5.605. Верно?

Да.

Nimissin · « **Ответ #9 :** 15 Август 2010, 12:53:57 »

Надо пересчитывать?

I2a1a · « **Ответ #10 :** 15 Август 2010, 13:00:14 »

Цитата: Nimissin от 15 Август 2010, 12:53:57

Надо пересчитывать?

Может быть. Но в данном случае (HIR-совпадение по MHC региону 6 хромомосомы) нет смысла, так как совпадение явно древнее (этот регион аутосомы 6 можно считать своего рода квазинерекомбинантным участком хромосомы).

I2a1a · « **Ответ #11 :** 15 Август 2010, 13:18:02 »

Ув. Дмитрий,

Похоже, что Вы решились взяться за аутосомы? Очень хорошо, так как эта тема -очень востребованная как среди наших форумчан, так и на международных форумах. И если моделей аналитической оценки родства по Y от разных авторов - хватает в избытке, то по аутосомным и X полусовпадениям таких работ не существует. Ваша работа с Каржавиным на эту тему была бы супероригинальной и революционной.

napobo3 · « **Ответ #12 :** 15 Август 2010, 13:33:55 »

Цитата: Vadim Verenich от 15 Август 2010, 13:18:02

Ув. Дмитрий,

Похоже, что Вы решились взяться за аутосомы? Очень хорошо, так как эта тема -очень востребованная как среди наших форумчан, так и на международных форумах. И если моделей аналитической оценки родства по Y от разных авторов - хватает в избытке, то по аутосомным и X полусовпадениям таких работ не существует. Ваша работа с Каржавиным на эту тему была бы супероригинальной и революционной.

+1

Каржавин · « **Ответ #13 :** 15 Август 2010, 13:51:48 »

Цитата: Vadim Verenich от 15 Август 2010, 13:18:02

Ув. Дмитрий,

Похоже, что Вы решились взяться за аутосомы? Очень хорошо, так как эта тема -очень востребованная как среди наших форумчан, так и на международных форумах. И если моделей аналитической оценки родства по Y от разных авторов - хватает в избытке, то по аутосомным и X полусовпадениям таких работ не существует. Ваша работа с Каржавиным на эту тему была бы супероригинальной и революционной.

Ха! Вы прочитали наши мысли!

Именно сегодня перед моим отъездом в отпуск мы с уважаемым Дмитрием сговорились на тему совместной деятельности в этом направлении. Но дело это не быстрое, поскольку предметная область сильно отличается от STR, да и главное - постановка задач, которые мы будем решать, в стадии осмысления (правда, у нас есть уже кое-какие мыслишки по этому поводу).
Если есть определенные пожелания по тому, что хотелось бы исследовать, пишите Дмитрию (я на 30 дней выпадаю из Интернет-пространства).

I2a1a · « **Ответ #14 :** 15 Август 2010, 14:13:06 »

Цитата: Каржавин от 15 Август 2010, 13:51:48

Цитата: Vadim Verenich от 15 Август 2010, 13:18:02
Ув. Дмитрий,

Похоже, что Вы решились взяться за аутосомы? Очень хорошо, так как эта тема -очень востребованная как среди наших форумчан, так и на международных форумах. И если моделей аналитической оценки родства по Y от разных авторов - хватает в избытке, то по аутосомным и X полусовпадениям таких работ не существует. Ваша работа с Каржавиным на эту тему была бы супероригинальной и революционной.
Ха! Вы прочитали наши мысли! Именно сегодня перед моим отъездом в отпуск мы с уважаемым Дмитрием сговорились на тему совместной деятельности в этом направлении. Но дело это не быстрое, поскольку предметная область сильно отличается от STR, да и главное - постановка задач, которые мы будем решать, в стадии осмысления (правда, у нас есть уже кое-какие мыслишки по этому поводу).
Если есть определенные пожелания по тому, что хотелось бы исследовать, пишите Дмитрию (я на 30 дней выпадаю из Интернет-пространства).

Хорошо, если будут вопрос по генетике наследования аутосом, и если Дмитрий согласен - то я смогу помочь.

АвторТема: Формула расчета генеалогической дистанции по локусам аутосомных хромосом (Прочитано 15755 раз)

I2a1a

Формула расчета генеалогической дистанции по локусам аутосомных хромосом

I2a1a

Re: Формула расчета генеалогической дистанции по локусам аутосомных хромосом

I2a1a

Re: Формула расчета генеалогической дистанции по локусам аутосомных хромосом

I2a1a

Re: Формула расчета генеалогической дистанции по локусам аутосомных хромосом

I2a1a

Re: Формула расчета генеалогической дистанции по локусам аутосомных хромосом

Nimissin

Re: Формула расчета генеалогической дистанции по локусам аутосомных хромосом

I2a1a

Re: Формула расчета генеалогической дистанции по локусам аутосомных хромосом

Nimissin

Re: Формула расчета генеалогической дистанции по локусам аутосомных хромосом

I2a1a

Re: Формула расчета генеалогической дистанции по локусам аутосомных хромосом

Nimissin

Re: Формула расчета генеалогической дистанции по локусам аутосомных хромосом

I2a1a

Re: Формула расчета генеалогической дистанции по локусам аутосомных хромосом

I2a1a

Re: Формула расчета генеалогической дистанции по локусам аутосомных хромосом

napobo3

Re: Формула расчета генеалогической дистанции по локусам аутосомных хромосом

Каржавин

Re: Формула расчета генеалогической дистанции по локусам аутосомных хромосом

I2a1a

Re: Формула расчета генеалогической дистанции по локусам аутосомных хромосом