Итак, так и не дождавшись резюме наших математиков, попробую сам изложить свое интуитивное понимание результатов.
Начну с самого простого графика распределения максимальных совпадающих сегментов.
Простого в том смысле, что здесь показано распределение не суммы сегментов, а единичных сегментов наибольшего размера.
Являются ли единичные сегменты общими по происхождению, или же это случайное совпадение?
Визуально гистограмма распределения крупнейших сегментов близка к виду пуассоновского распределения (теоретически это можно проверить тестом Холмогорова-Смирнова, но я его не проводил). Поэтому можно предположить правильность выводов авторов статьи, упомянутой в первом посте темы
независимое от популяционного "шума" распределение сегментов IBD соответствует Пуассоновскому распределению со средним значением:
Каковы эмпирические свойства данного распределения?
Пик "колокола" распределения приходится на сегменты размером 5.424 сM (красный столбик гистограммы), что, видимо, неслучайно. Напомню, что 5.5 сM -это нижнее пороговое значение, при которых алгоритм 23andme квалифицирует сегмент как "генеалогический" (IBD), а его обладатель - как "генетический кузен" в базе данных Relative Finder. Обычное обладатели таких общих сегментов (5.5 сM) не высвечиваются в списке RF-кузенов вплоть до тех пор, пока Вы не зашарите свой геном с ними.
Любопытна линия кумулятивного распределения, отсекающая примерно 60% таких сегментов. Интуитивно можно предположить, что примерно 6
0% таких единичных сегментов размером 5-5.5 сM не являются генеалогическими сегментами в плане наличия недавнего общего предка.
Этот вывод неплохо согласуется с мнением Энн Тернер, которая считает, что примерно 2/3 являются случайными совпадениями (IBS -idemtical by state).
Любопытна кривая кумулятивного пуассоновского распределения крупнеших сегментов. В левой своей части она визуально похожа на крутую сплошную линию распределения IBS ("ложных сегментов") из процитированной статьи. Начиная примерно с единичных сегментов размером 7-8 сM, линия визуально приобретает характер прерывистой линии распределения с кумулятивным процентом 90-100% (из той же статьи).
По мнению авторов статьи, подобное распределение общих сегментов характерно для тех случаев, когда распределение "случайных" IBS совпадений на кладывается на распределение "генеалогических" IBD сегментов.
Наблюдаемая картина неплохо согласуется с дефолтным порогом "генеалогических совпадений" в 23andme (7 cM), при котором "генетические кузены" (с сегментами => 7сM) показываются в списке кузенов по умолчанию. Хотя по эмпирическим данным этот слегка смещен в сторону 9 сM.