АвторТема: Формула расчета генеалогической дистанции по локусам аутосомных хромосом  (Прочитано 10273 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 11074
  • Страна: ee
  • Рейтинг +754/-8
M. Slatkin and B. Rannala, Estimating allele age. Annual Reviews of Genomics and Human Genetics 1: 225-249.


Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 11074
  • Страна: ee
  • Рейтинг +754/-8
?-ln??(d/299000000)?1/ln?2 ?(-ln?(1/C) )?F

Перед тем, как объяснить принципы расчета генеалогического возраста сегмента по формуле Serre-Risch, давайте сравним формулу Serre (в том виде, в каком она приведена в статье Слаткина и Ранниллы) и  формулу расчета генеалогической дистанции, использованную мной для расчета генеалогической степени родства по результатам частичных совпадений геномных «регионов» у тестантов 23andme.
Итак, при сопоставлении формулы Serre-Risch c  использованной мною формулой расчетов видно, что формула Serre-Risch состоит из 2 компонентов (множителей), в то время как «моя» формула  состоит из 4. Основное отличие  формул заключается в том, что формула Serre-Risch была выведена специально для вычисления отдельных аллельных локусов (например, в работе Serre et.all высчитывался возраст аллеля E1-delta F508).  Поэтому использовать эту формулу для расчета генеалогических поколений  по данным «совпаденцев» в Relative Finder, Family Finder и HIRsearch –некорректно, поскольку в вышеупомянутых «инструментах»  отсев хромосомных сегментов производится по другим критериям (пороговым значениям генетической дистанции, исчисляемой в сентиморганах, и «плотности» снипов на «совпадающем» сегменте). Более важным критерием отличия принципов расчета возраста по приведенным формулам является то, что в первом случае (формула Серр-Риша)  определяется возраст аллелей одного генетически сцепленного локуса; в то время как при расчетах по второй формуле используется модель «контига», т.е рассматривается  некий  HIR-регион (IBD и IBS), нуклеотидная последовательность которого (т.н. «контиг») наполовину (по одной из ДНК цепочек) идентична у двух сравниваемых лиц.
Принимая во внимание вышесказанное, для расчета возраста не отдельных аллелей, а протяженных геномных регионов, к 2 последним множителям в моей формуле (которые в «физическом» смысле близки 2 множителям в формуле Серр-Риш –см.ниже)  я добавил логарифмическое выражение, которое, по своей сути сводится к описанию экспонентного «уменьшения» физической длины совпадающего сегмента по мере возрастания генеалогических поколений, отделяющих двух сравниваемых лиц (т.е это положении  действительно для частного случая закона Бернули о превращении веществ) :
-ln(d/299000000)/ln2,  где d- величина или длина совпадающего участка генома в базовых парах, 299000000 – константа (величина генома в базовых парах).
Возвращаясь к двум последним множителям в формуле расчетов генеалогической дистанции по хромосомным регионам, то, как я и говорил,  они по своей «физической» сути аналогичны двум компонентам формулы Серр-Риша. В частности, первый компонент формулы Серр-Риша: 1/ln (1-c), где с - величина частоты рекомбинации аллеля – имеет тот же смысл, что и использованный в моей формуле  эстиматор рекомбинации (-ln (1/Cm), с той лишь разницей, что в формуле Серр-Риша используется частота рекомбинации (т.е Сm/Mb), в моей формуле – Сm – генетическая дистанция в сентиморганах.
Самой проблематичной частью моей формулы является F, который равен натуральному логарифму коэффициента инбридинга, который в определенных случаях (изолированные популяции) идентичен коэффициенту инбридингового угасания гетерозиготности. В формуле Серр-Риша нет аналога коэффициента угасания гетерозиготности или коэффициента инбридинга. Последняя часть формулы  Серр-Риша : ln((x(t)-y)/1-y) –представляет собой дробь, в числителе которой содержится разность между x(t) ожидаемой частотой аллеля в поколении и y –постоянной «нормальной» частотой аллеля в нормальных хромосомах, эта частота считается константной с момента, когда произошла мутация. В знаменателе дроби разность между 1 (частота аллеля в момент 0) и у («нормальной» частотой). Иными словами, в этой части формулы задается соотношение реального изменения частоты аллелей к предпологаемому исходя из принципа равновесия Харди-Вейнберга изменению  частоты аллелей. То есть смысл этого выражения идентичен рассчитываемому на основе F-статистики и принципа Харди-Вейнберга (в популяции бесконечно большого размера, в которой не действует отбор, не идет мутационный процесс, отсутствует обмен особями с другими популяциями, не происходит дрейф генов, все скрещивания случайны) коэффициента инбридинга.
Следовательно, последний член произведения в формуле Серр-Риш имеет тот же биологический смысл, что и логарифм  коэффициента инбридинга F в «моей» формуле. Как мы увидим далее на практических примерах, правильная оценка величины этого параметра имеет определяющее значение при оценке достоверной генеалогической дистанции между «HIR-совпаденцами» в RF, FF и HiRsearch.



« Последнее редактирование: 28 Июнь 2010, 15:29:44 от Vadim Verenich »

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 11074
  • Страна: ee
  • Рейтинг +754/-8
Теперь -самое интересное. :)
Попробуем пересчитать (по формуле Серра-Риша) предсказанную Релфайндером степень "родства" с теми "кузенами", с которыми у меня имеются HIR-совпадения по региону локуса MHC -HLAI и HLAII.

В качестве примера, возьму данные по HIR-совпадению с одним из недавно "найденных кузенов" .

BS vs. Vadim Verenich     6     25000000     36000000     7.0 cM     3800

Как использовать эти данные для расчета дистанции? Мы используем приведенные значения HIR в расчете частоты рекомбинации сегмента с=cM/Mb, в нашем случае сM=7 и количество "совпадающих" мегабаз (MB)=11. Частота рекомбинации в нашем случае равна 7/11=0,636.

Подставив полученное значение частоты рекомбинации в первую часть формулы Serra, получим числовое значение эстиматора влияния рекомбинации 1/ln (1-0.636), модульное значение 0.988.

Теперь самое сложное. Как видно из процитированного отрывка статьи Слаткина и Ранналла, значения x(t) и y во  второй части формулы Serra-Risch берутся из статистическо-эмпирического анализа  распределения "нормальных" и "рекомбинировавших" значений аллелей (в статье Слаткина приводятся  результаты этого исследования на примере изучения хромосом в выборке французов).

В нашем примере с 6 хромосомой, мы сталкиваемся с двумя трудностями - во-первых, у нас нет априорных данных о частоте распределения " совпадающих сегментов" в структуре исходной популяции.
Во-вторых, мы не знаем, какая комбинация аллелей является предковой, а какая - рекомбинировавшей или мутировавшей.

Первую проблему можно решить следущим способом. Мы определяем начало и конец совпадающего участка 6 хромосомы, затем вводим эти данные в программу Haploview и загружаем данные по этому участку из выборки геномов европейцев (это панель CEU проекта HapMap). Затем анализируем загруженые данные на предмет наличия гаплоблоков. Примеры анализа 6 хромосомы можно найти в этой теме.

Я решил проанализировать в Haploview сектор хромосомы, на который приходится снипы, связанные с генным локусом HLA-B. Для этого анализа я использовал данные по этому участку генома у 205 конвенциональных северо-западных европейцов из панели CEU ("Utah residents with ancestry from northern and western Europe") проекта HapMap. К сожалению, в HapMap из всех снипов ассоциированных с HLA-B имеются данные только по двум SNP  - rs1058026 и rs2523608.
Именно они и образуют устойчивый гаплоблок с генетической дистанцией, близкой к ... нулю. В то время как r2 -коэффициент корреляции между частотами аллелями, равен 1. Это означает, что имеется положительная корреляциям между гаметами (гаплотипами) и наиболее распространенными комбинациями аллелей в двух локусах. Это означает, что локусы сцеплены друг с другом, и следовательно имеется существенное неравновесие по сцеплению этих локусов.

Кроме того, в Haploview удалось выявить три наиболее распространенных генотипа по значениям 2 вышеупомянутых локусов у северо-западных европейцев. Это AG (40,2%)(мой генотип входит в эти 40%), AA (38,5%), CA (21,2%). В другом гаплоблока, расположенном дальше в регионе MHC, имеющим ассоциацию с генными локусами HLA-DQA1 и HLA-DQA2, разнообразие генотипов еще выше.

Тут мы переходим к главному вопросу. Как определить предковый гаплотип, не имея априорных данных о статистических изменений частоты аллеля в течении определенного количества поколений? Слаткин и Раннила дают 2 практических совета, один из которых относительно легко применять даже дилетанту.
Суть приема состоит в вычислении взвешенного среднеарифметического значения частоты аллеля
по имеющимся данным о частоте распространения генотипов HLA-DQA1 и HLA-DQA2 среди европейцев.

В качестве примера, возьмем данные по самому длинному гаплоблоку (на карте гаплоблоков начинается с позиции 045 до позиции 090). Частоты распределения следущие:
0.195
0.261
0.117
0.102
0.093
0.090
0.044
0.041
0.022
Поскольку общее количество геномов в панеле CEU 180, то взвешенное среднеарифметическое (weighted average) в данном случае составит 0.156, или у -"частота предкового аллеля".
Подставим полученные значение y и наблюдаемую частоту гаплоблока в первой группе (0.195)  в  формулу ln ((x(t)-y)/(1-y)), получив тем самым логарифмическое выражение коэффициента имбридинга. Его модуль равен 3.075.

Произведение эстиматора рекомбинации и логарифма коэффициента инбридинга составит  0.988*3.075=3.0381.

Наконец, рассчитаем логарифм пропорционального отношения размера HIR к размеру генома.
ln (11000000/299000000)=3.302548301.

Таким образом, дистанция (вернее, нижний порог дистанции) в генеалогических поколениях в приведенном выше примере

Цитировать
BS vs. Vadim Verenich     6     25000000     36000000     7.0 cM     3800

составляет T=3.302548301*3.0381=10.03 поколений


« Последнее редактирование: 28 Июнь 2010, 15:30:25 от Vadim Verenich »

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 11074
  • Страна: ee
  • Рейтинг +754/-8
Какова будет генетической дистанции в случае экспоненциально расстущего населения?
Математик Лабуда и др., используя в качестве основы модель роста популяции Лурия-Дельбрюка, показал что оценка генеалогической дистанции является искаженной без учета коэффициента роста популяции.
Поправка Лабуда к формуле Серра-Риша сводится к следущей алгебраической нотации:

?(1/r)/ln[cer /(er ? 1)],

где c-частота рекомбинации, е- число Эйлера (2,718), r- частота роста популяции, в нашей модели следуя работе ЛаШанс (2008), я принял за частоту роста популяции число "золотого сечения" (фи) = 1,618.

Итак, подставив все значения в формулу
?(1/1.618)/ln[0.636*2.7181.618 /(2.7181.618 ? 1)], мы получим величину увеличивающей поправки Лабуда -0.1430. В случае дистанции в 10 генеалогических поколений, поправка Лабуда добавляет  полтора поколения.

С учетом поправки Лабуда, дистанция между мной и БС составляет 10.03+1.43 или 11.5 поколений.
Для сравнения, предикт родства с БС в RF  -5th Cousin (4th to 10th Cousin)


« Последнее редактирование: 24 Май 2010, 18:12:54 от Vadim Verenich »

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 11074
  • Страна: ee
  • Рейтинг +754/-8
95% доверительный интервал 11.5 +- 1.372

Оффлайн Nimissin

  • Сообщений: 2071
  • Рейтинг +523/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b4
?-ln??(d/299000000)?1/ln?2 ?(-ln?(1/C) )?F

Принимая во внимание вышесказанное, для расчета возраста не отдельных аллелей, а протяженных геномных регионов, к 2 последним множителям в моей формуле (которые в «физическом» смысле близки 2 множителям в формуле Серр-Риш –см.ниже)  я добавил логарифмическое выражение, которое, по своей сути сводится к описанию экспонентного «уменьшения» физической длины совпадающего сегмента по мере возрастания генеалогических поколений, отделяющих двух сравниваемых лиц (т.е это положении  действительно для частного случая закона Бернули о превращении веществ) :
-ln(d/299000000)/ln2,  где d- величина или длина совпадающего участка генома в базовых парах, 299000000 – константа (величина генома в базовых парах).
Уважаемый Vadim Verenich, а почему константа равна 299 000 000, а не 2 990 000 000? Ведь размер рассматриваемого генома 2.99 Gb, а не 299 mb?

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 11074
  • Страна: ee
  • Рейтинг +754/-8
Уважаемый Vadim Verenich, а почему константа равна 299 000 000, а не 2 990 000 000? Ведь размер рассматриваемого генома 2.99 Gb, а не 299 mb?

Это опечатка. Должно быть 2 990 000 000.

Оффлайн Nimissin

  • Сообщений: 2071
  • Рейтинг +523/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b4

Наконец, рассчитаем логарифм пропорционального отношения размера HIR к размеру генома.
ln (11000000/299000000)=3.302548301.

Таким образом, дистанция (вернее, нижний порог дистанции) в генеалогических поколениях в приведенном выше примере

Цитировать
BS vs. Vadim Verenich     6     25000000     36000000     7.0 cM     3800

составляет T=3.302548301*3.0381=10.03 поколений



Тогда ln(11 000 000/ 2 990 000 000) = -5.605. Верно?

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 11074
  • Страна: ee
  • Рейтинг +754/-8

Наконец, рассчитаем логарифм пропорционального отношения размера HIR к размеру генома.
ln (11000000/299000000)=3.302548301.

Таким образом, дистанция (вернее, нижний порог дистанции) в генеалогических поколениях в приведенном выше примере

Цитировать
BS vs. Vadim Verenich     6     25000000     36000000     7.0 cM     3800

составляет T=3.302548301*3.0381=10.03 поколений



Тогда ln(11 000 000/ 2 990 000 000) = -5.605. Верно?

Да.

Оффлайн Nimissin

  • Сообщений: 2071
  • Рейтинг +523/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b4

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 11074
  • Страна: ee
  • Рейтинг +754/-8
Надо пересчитывать?
Может быть. Но в данном случае (HIR-совпадение по MHC региону 6 хромомосомы) нет смысла, так как совпадение явно древнее (этот регион аутосомы 6 можно считать своего рода квазинерекомбинантным участком хромосомы).

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 11074
  • Страна: ee
  • Рейтинг +754/-8
Ув. Дмитрий,

Похоже, что Вы решились взяться за аутосомы? Очень хорошо, так как эта тема -очень востребованная как среди наших форумчан, так и на международных форумах. И если моделей аналитической оценки родства по Y от разных авторов - хватает в избытке, то по аутосомным и X полусовпадениям таких работ не существует. Ваша работа с Каржавиным на эту тему  была бы супероригинальной и революционной.

Оффлайн napobo3

  • Сообщений: 1340
  • Страна: il
  • Рейтинг +331/-2
  • קַח-נָא אֶת-בִּנְךָ אֶת-יְחִידְךָ אֲשֶׁר-אָהַבְתָּ, אֶת-יִצְחָק
  • Y-ДНК: J-FGC5231
  • мтДНК: N1b2
Ув. Дмитрий,

Похоже, что Вы решились взяться за аутосомы? Очень хорошо, так как эта тема -очень востребованная как среди наших форумчан, так и на международных форумах. И если моделей аналитической оценки родства по Y от разных авторов - хватает в избытке, то по аутосомным и X полусовпадениям таких работ не существует. Ваша работа с Каржавиным на эту тему  была бы супероригинальной и революционной.
+1

Оффлайн Каржавин

  • ...
  • Сообщений: 1936
  • Рейтинг +144/-2
Ув. Дмитрий,

Похоже, что Вы решились взяться за аутосомы? Очень хорошо, так как эта тема -очень востребованная как среди наших форумчан, так и на международных форумах. И если моделей аналитической оценки родства по Y от разных авторов - хватает в избытке, то по аутосомным и X полусовпадениям таких работ не существует. Ваша работа с Каржавиным на эту тему  была бы супероригинальной и революционной.
Ха! Вы прочитали наши мысли! ;D Именно сегодня перед моим отъездом в отпуск мы с уважаемым Дмитрием сговорились на тему совместной деятельности в этом направлении. Но дело это не быстрое, поскольку предметная область сильно отличается от STR, да и главное - постановка задач, которые мы будем решать, в стадии осмысления (правда, у нас есть уже кое-какие мыслишки по этому поводу).
Если есть определенные пожелания по тому, что хотелось бы исследовать, пишите Дмитрию (я на 30 дней выпадаю из Интернет-пространства).

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 11074
  • Страна: ee
  • Рейтинг +754/-8
Ув. Дмитрий,

Похоже, что Вы решились взяться за аутосомы? Очень хорошо, так как эта тема -очень востребованная как среди наших форумчан, так и на международных форумах. И если моделей аналитической оценки родства по Y от разных авторов - хватает в избытке, то по аутосомным и X полусовпадениям таких работ не существует. Ваша работа с Каржавиным на эту тему  была бы супероригинальной и революционной.
Ха! Вы прочитали наши мысли! ;D Именно сегодня перед моим отъездом в отпуск мы с уважаемым Дмитрием сговорились на тему совместной деятельности в этом направлении. Но дело это не быстрое, поскольку предметная область сильно отличается от STR, да и главное - постановка задач, которые мы будем решать, в стадии осмысления (правда, у нас есть уже кое-какие мыслишки по этому поводу).
Если есть определенные пожелания по тому, что хотелось бы исследовать, пишите Дмитрию (я на 30 дней выпадаю из Интернет-пространства).

Хорошо, если будут вопрос по генетике наследования аутосом, и если Дмитрий согласен - то я смогу помочь.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.


Rambler's Top100