АвторТема: "Генеалогические" и "случайные" совпадения сегментов хромосом  (Прочитано 7820 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Периодически на разных форумах (в том числе и на этом) подымается на повестку дня вопрос о том, являются ли сегменты полуидентичного совпадения (НIR) сравниваемых хромосом общими сегментами в смысле общности генеалогического происхождения, - или же эти наличие HIRs (УПСы) является случайным.

Для удобства изложения заменю понятие HIR (УПС) на более общепринятые в науке понятие IBD (сегмент, идентичный по происхождению) и понятие IBS (сегмент, идентичный по сходству). Последний в слэнге молгеновцев именуется лжеупсом.

Существуют ли статистические методы для определения характера совпадающего сегмента? Можно ли определить, какой сегмент достался от общего предка, а какой -продукт случайного совпадения?

Оказывается,теоретически можно. В любопытной статье "Shared genomic segment analysis. Mapping disease predisposition genes in extended pedigrees using SNP genotype assays" было показано, что независимое от популяционного "шума" распределение сегментов IBD  соответствует Пуассоновскому распределению со средним значением:



Авторы статьи провели любопытный анализ эмпирического распределения IBD сегментов у 8 генеалогически родственных лиц и сравнили его с распределением IBS, сгенерированных случайным образом.

Соотношение проиллюстрировано графиком: сплошная линия соответствует распределению сегментов IBS, точечная линия распределению сегментов IBD. Пунктирная линия -смеси распределений сегментов ложнопозитивных совпадений IBS и истинно генеалогических IBD.



« Последнее редактирование: 28 Февраль 2011, 02:19:40 от I2a2a »

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Благодаря новой фиче сайта Gedmatch (c) J.Olson (за что ему низкий поклон лично от меня), позволяющей сравнивать отдельные "геномы" (в данном со всей базой (660 геномов) в мастшабах сегментов "размером" более 1,5 и 10 сМ, я смог проверить выводы авторов на более объемном материале (совокупный размер совпадающих сегментов дан также в сентиморганах сМ).

Я построил гистограммы  (на график обозначена синим цветом) частоты распределения идентичных сегментов того или иного размера, а также график куммулятивного распределения частот (красная линия).

Чуть позже прокомментирую результаты.

Начну с аутосомных хромосом.



« Последнее редактирование: 28 Февраль 2011, 15:05:13 от I2a2a »

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
У меня есть интересные соображения, которые могут помочь проинтерпретировать полученные графики (гистограммы + кумулятивную функцию часто).

Но сначала я хотел бы выслушать мнение спецов по мат.статистике. :)

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Наверно тему задублило из-за всегдашних проблем с хостингом.
Вадим, если не возражаете я короткую копию с одним Вашим и одним моим сообщением сотру? А эту ветку будем считать основной.

Пока подтянутся специалисты по мат. статистике  :), не могу не удержаться и не воскликнуть подобно пришвиновской лягушке-путешественнице: это я придумала!

Более года тому назад вопил о необходимости написания такой работы.
Авторов чуть не в бок пихал.
Развитие материала, можно сказать, по пунктам изложил.
И вот дождаласся, дождаласся заю. ©
Хорошие мысли приходят не только в одну голову.
Идея тогда не нашла элементарного понимания, зато надеюсь теперь эту публикацию хорошо объяснят.  ::)

Суть проста: получение доверительной вероятности для истинности УПСов заданной длины.
Метода тоже очевидна: сравнение реальных и смоделированных данных.

Оффлайн Clavis

  • Семенов Михаил Юрьевич
  • Сообщений: 1495
  • Страна: ru
  • Рейтинг +111/-0
    • https://m.vk.com/@clavis1953
  • Y-ДНК: G2a2 L1264
  • мтДНК: HV9, ранее известная как HV3a
Несколько вопросов по графикам. largest=крупнейший, а со скольки сМ начинаются "крупнейшие"? Это как Карлсон говорит, что он - мужчина в самом расцвете сил, а Малыш осторожно интересуется, во сколько лет наступает этот "самый расцвет" ?
график для > 10 сМ включает в себя все участки крупнее 10 сМ, в том числе "largest", или кроме "largest" ?
график для > 5 сМ включает в себя также участки крупнее 10 сМ, отраженные на предыдущем графике?

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
А, вернулись к исходной статье 2007 года.
:o

УПСы сейчас считают уже немного покомплекснее, чем простым делением на два.

Вот ссылка от уважаемого паровоЗ в тему:

I have two such cases in my family study, each with four shared blocks. This is actually somewhat lower than a theoretical prediction based on a formula I found in a paper by Thomas. I may have mentioned it before, but here's the citation:

http://www.ncbi.nlm.nih.gov/pubmed/18093282

The formula is hard to represent by typing in an e-mail, so I'll try to copy the image:



d is the number of meioses (transmission events), lambda is the number of cross-over points (suggested as 37 by Thomas), k is the number of chromosomes (22), and a is the number of common ancestors (two for a married couple). That would work out to 8 segments for 2nd cousins once removed.

The cross-over rate varies between males and females, and it's also under genetic control itself, so that piles random effects on top of random effects.

As you probably know by now, 23andMe is making a presentation at the American Society of Human Genetics about what they call IBD (Identical by Descent) and we've been calling HIR (Half Identical Region). They have been running simulations on real world data, and people with Ashkenazi ancestry are especially likely to find some HIRs. So I'm virtually positive that your and your relative will show some blue segments.

https://www.23andme.com/you/community/product/thread/1496/

Ann


Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Несколько вопросов по графикам. largest=крупнейший, а со скольки сМ начинаются "крупнейшие"? Это как Карлсон говорит, что он - мужчина в самом расцвете сил, а Малыш осторожно интересуется, во сколько лет наступает этот "самый расцвет" ?
график для > 10 сМ включает в себя все участки крупнее 10 сМ, в том числе "largest", или кроме "largest" ?
график для > 5 сМ включает в себя также участки крупнее 10 сМ, отраженные на предыдущем графике?

Largest -это размер крупнейшего (единичного) сегмента между двумя сравниваемыми лицами.
>10 cM - cумма размеров (или дистанций в сантиморганах) сегментов , каждый  из которых (квантор всеобщности) строго больше > 10 cM.

Аналогично для >5 cM и >1 cM.


 
« Последнее редактирование: 28 Февраль 2011, 16:30:56 от I2a2a »

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Итак, так и  не дождавшись резюме наших математиков, попробую сам изложить свое интуитивное понимание результатов.

Начну с самого простого графика распределения максимальных совпадающих  сегментов.
Простого в том смысле, что здесь показано распределение не суммы сегментов, а единичных сегментов наибольшего размера.

Являются ли единичные сегменты общими по происхождению, или же это случайное совпадение?

Визуально гистограмма распределения крупнейших сегментов близка к виду пуассоновского распределения (теоретически это можно проверить тестом Холмогорова-Смирнова, но я его не проводил). Поэтому можно предположить правильность выводов авторов статьи, упомянутой в первом посте темы

Цитировать
независимое от популяционного "шума" распределение сегментов IBD  соответствует Пуассоновскому распределению со средним значением:

Каковы эмпирические свойства данного распределения?
Пик "колокола" распределения приходится на сегменты размером 5.424 сM (красный столбик гистограммы), что, видимо, неслучайно. Напомню, что 5.5 сM -это нижнее пороговое значение, при которых  алгоритм 23andme квалифицирует сегмент как "генеалогический" (IBD), а его обладатель - как "генетический кузен" в базе данных Relative Finder. Обычное обладатели таких общих сегментов (5.5 сM) не высвечиваются в списке RF-кузенов вплоть до тех пор, пока Вы не зашарите свой геном с ними.
Любопытна линия кумулятивного распределения, отсекающая примерно 60% таких сегментов. Интуитивно можно предположить, что примерно  60% таких единичных сегментов размером 5-5.5 сM не являются генеалогическими сегментами в плане наличия недавнего общего предка.

Этот вывод неплохо согласуется с мнением Энн Тернер, которая считает, что примерно 2/3 являются случайными совпадениями (IBS -idemtical by state).
Любопытна кривая кумулятивного пуассоновского распределения крупнеших сегментов. В левой своей части она визуально похожа на крутую сплошную линию распределения IBS ("ложных сегментов") из процитированной статьи. Начиная примерно с единичных сегментов размером 7-8 сM, линия визуально приобретает характер прерывистой линии распределения с кумулятивным процентом 90-100% (из той же статьи). По мнению авторов статьи, подобное распределение общих сегментов характерно для тех случаев, когда распределение "случайных" IBS совпадений на кладывается на распределение "генеалогических" IBD сегментов.

Наблюдаемая картина неплохо согласуется с дефолтным порогом "генеалогических совпадений" в 23andme (7 cM), при котором "генетические кузены" (с сегментами => 7сM)  показываются в списке кузенов по умолчанию. Хотя по эмпирическим данным этот слегка смещен в сторону 9 сM.


« Последнее редактирование: 28 Февраль 2011, 17:30:52 от I2a2a »

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Следущий график должен быть интересен как тем, кто проходил мульти-снип тестирование в 23ия, так и клиентам FTDNA, тестировавшимся в FamilyFinder.

Здесь показано распределение суммы идентичных сегментов, каждый из которых больше 10 сM.
Левая часть графика представляет собой "нулевую" линию вплоть до 10 сM, что логично, ибо согласно условиям, минимальный размер идентичных сегментов должен быть равен 10 сM. Далее хвост кумулятивного распределения плавно возрастает в интервале между 20 сМ -30 сМ, после чего приближается к 100% (подобно пунктурной линии из обсуждаемой статьи).
На основании наблюдаемой картины можно сделать предположение, что при наличии общей суммы идентичных сегментов, выраженной в сМ и большей чем 20 сМ, и  минимальном размере каждого отдельного сегмента 10 сМ, каждый из них с высокой степенью вероятности является идентичным по происхождению (генеалогии) сегментом.

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Третий график будет особенно интересен клиентам FamilyFinder-FTDNA, т.к. там считают общую сумму сМ, в том числе и для сегментов, каждый из которых больше 5 сM.

Визуально правая часть гистограммы распределения сегментов > 5 cM наиболее похоже на логнорма?льное распределе?ние, что в принципе понятно, т.к. если случайная величина имеет логнормальное распределение, то её логарифм имеет нормальное распределение.

Ненулевой пик гистограммы приходится на интервал сегментов между 7-8 сM, т.к эта часть гистограммы описывается пуассоновским распределением, и в этом случае сегменты представленны не суммой, а единичным идентичным сегментом размером в 7 - 8 сM.

Линия кумулятивного распределения носит характер линии IBS распределения примерно до интервала сегментов размером 30-35 сегментов, что означает, что кроме единичных сегментов, большинство совокупных сегментов состоят из множества IBS сегментов. Признаки смешенного распределения IBS+IBD сегментов начинаются с интервала 35 сМ. Это означает, что при общей сумме сегментов (> 5 cM ), равной 35 сМ минимум один совпадающий сегмент будет общим по происхождению.

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Несколько вопросов по графикам. largest=крупнейший, а со скольки сМ начинаются "крупнейшие"?

Без ограничений. Нижний порог стремиться к нулю, верхний к размеру общих сегментов у ближайших родственников (родителей и детей, братьев и сестер).

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Прелюбопытнейшая статистика из работы

Цитировать
For pairs of individuals as distantly related as eighth-degree relatives, ERSA’s
estimates are generally accurate to within one degree of the known relationship. ERSA
predicted the exact degree of relationship for 66% of the 549 pairs of first- through fifthdegree
relative and was accurate to within one degree of relationship for 97% of those
pairs (Figure 3 and Supplementary Table S1). Point estimates were accurate to within one
degree of relationship for more than 80% of sixth- and seventh-degree relatives, and 60%
of eighth-degree relatives (Figure 3), but accuracy drops off rapidly beyond this point
(Figure 3).

ERSA has nearly 100% power to detect first- through fifth-degree relatives and
substantial power to detect ancestry as distant as eleventh-degree relatives. We detected a
significant relationship among all 549 pairs of first- through fifth-degree relatives in our
Downloaded from genome.cshlp.org on March 1, 2011 - Published by Cold Spring Harbor Laboratory Press
sample (? = 0.001, where the null hypothesis is no relationship, Figure 4). Although the
power to detect more distant ancestry is constrained by the fact that distant relatives often
share no genetic material (Donnelly 1983), ERSA retains relatively high power for these
relationships. We detected 88% of seventh-degree relatives, 44% of ninth-degree
relatives, and 12% of eleventh-degree relatives at a significance level of 0.001 (red line
in Figure 4), which closely approaches the maximum theoretical power (black line in
Figure 4)
.

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Цитировать
The probability that fourth cousins share at least one IBD segment is 77%, and the expected length of this segment is 10 cM (Donnelly 1983). Because a 10 cM segment represents less than 0.3% of the
genome, this excess of IBD has very little effect on estimates of relatedness averaged over the genome. However, because unrelated individuals are unlikely to share a 10 cM segment in most populations, ERSA is capable of detecting many fourth-cousin relationships (Figure 4). For relationships as distant as third cousins, there are typically enough IBD segments throughout the genome to allow strong inferences (Figure 3).

Оффлайн I2a1aАвтор темы

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Цитировать
ERSA detects recent shared ancestry by identifying an excess of IBD segment
sharing relative to the population background. Therefore, the power to detect shared
ancestry between individuals depends on the demographic history of the population to
which those individuals belong. If the population size is small, or if the population has
experienced a founder effect or recent bottleneck, then the level of IBD segment sharing
among unrelated individuals will increase.
In such populations, ERSA’s power to detect
distant relationships will be diminished. The pedigree samples analyzed here are from a
homogeneous population, and population admixture may affect ERSA’s performance.
However, there is reason to believe that ERSA will retain its high detection power in
admixed populations (see Supplementary Materials).

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.