в 16 хромосоме они указывают на один и тот же участок, размер которого близок к 7 сМ, но насколько отличаются границы этого УПСа - это же небо и земля!
А как это может быть, ведь ГМ использует данные ФТДНА, разве нет? Почему в одном случае 27-48 мб, а в другом - 46-52 мб??? И про что все это? Про ненадежность ГМ?
Данные одни и те же, но алгоритм (правило, формула) рассчёта - различные. Отсюда и разница.
Рассмотрим 2 генома. Обозначим УПС - участок половинного совпадения с одной ошибкой, а УТС - участок половинного совпадения без единой ошибки (Т - точное полусовпадение, т.е. во всей цепочке хотя бы одна буква совпадает. Пример: АТ и ТТ). Х - несовпадающий биаллель (оба биаллеля не совпадают, т.е. ни одна буква не совпадает: AG и CT).
То что вы видите в фтдна или гедматче - это:
ХХХ<УПС>ХХХ <--1й человек
ХХХ<УПС>ХХХ <--2й человек
упрощённый пример геномов:
АЦАА<УПС>ЦАТТ <--1 аллель, 1й человек
АГТТ<УПС>ЦТЦЦ <--2 аллель, 1й человек
ЦАЦГ<УПС>ТЦАА <--1 аллель, 2й человек
ЦАГЦ<УПС>ТЦАА <--2 аллель, 2й человек
или расписав УПС (на самом деле там тысячи букв в упсе):
АЦАА<АЦ...ГГ>ЦАТТ <--1 аллель, 1й человек
АГТТ<ТЦ...ЦЦ>ЦТЦЦ <--2 аллель, 1й человек
ЦАЦГ<АЦ...ЦГ>ТЦАА <--1 аллель, 2й человек
ЦАГЦ<АГ...ЦГ>ТЦАА <--2 аллель, 2й человек
Видно, что внутри УПСА (угловые скобки не убраны для наглядности) - хотя бы одно совпадение из 2х аллелей присутствует.
Но на самом деле (ведь в участке допустимо одно полное несовпадение! Т.е. один УПС это 2 УТСа - в нашей введённой здесь УПС/УТС терминологии) :
ХХХ<УТС11>Х<УТС12>ХХХ
ХХХ<УТС11>Х<УТС12>ХХХ
т.е. в нашем примере может быть:
АЦАА<АЦ..А..ГГ>ЦАТТ <--1 аллель, 1й человек
АГТТ<ТЦ..Т..ЦЦ>ЦТЦЦ <--2 аллель, 1й человек
ЦАЦГ<АЦ..Ц..ЦГ>ТЦАА <--1 аллель, 2й человек
ЦАГЦ<АГ..Г..ЦГ>ТЦАА <--2 аллель, 2й человек
в центральной позиции ни одна аллель в биаллели (паре) не совпадает! И это нормально, допускается одно полное несовпадение (в отличие от других полусовпадений).
Но так как справа и слева (от УТСов) могут быть ещё мелкие участки полного полусовпадения (заметьте что мы имеем полусовпадения - везде, доставшиеся от этнического фона, то скорее всего будет следующее:
ХХХ<УТС21>Х<УТС11>Х<УТС12>Х<УТС22>ХХХ
ХХХ<УТС21>Х<УТС11>Х<УТС12>Х<УТС22>ХХХ
Теперь так как проверять геном мы можем как слева так и справа, то и разбиений УТСов на УПСы может быть несколько, и различные алгоритмы это могут делать по разному, с разных сторон, и даже начиная с любого из УТСов, в зависимости от порога и как алгоритм пропускает УПСы, не удовлетворяющие порогу:
(круглыми скобками обозначены различные разбиения/группировки утсов на упсы)
1.
ХХХ(<УТС21>Х<УТС11>)Х<УТС12>Х<УТС22>ХХХ
ХХХ(<УТС21>Х<УТС11>)Х<УТС12>Х<УТС22>ХХХ
2.
ХХХ<УТС21>Х(<УТС11>Х<УТС12>)Х<УТС22>ХХХ
ХХХ<УТС21>Х(<УТС11>Х<УТС12>)Х<УТС22>ХХХ
3.
ХХХ<УТС21>Х<УТС11>Х(<УТС12>Х<УТС22>)ХХХ
ХХХ<УТС21>Х<УТС11>Х(<УТС12>Х<УТС22>)ХХХ
Вывод: разные алгоритмы (например ФТДНА и гедматч) могут показывать (определять) один и тот же упс по-разному, например 1 и 2. Или 1 и 3.
В первом случае будем иметь пересечение (как в пример уважаемого Клависа на 16й хромосоме). Во втором случае вообще не будет пересечения, но упс будет соседним, разделяться одним несовпадением.
Поэтому я выступаю за игнорирование границ вообще. И предлагаю считать упсы разными только если они разделены более чем одним аллелем.
На самом деле даже в случае одного и того же алгоритма и более 2х пар с одним общим упсом - нужно быть менее категоричным с опознанием границ упса, так как вообще это всё вероятностный процесс (порядок аллелей матрицей Иллюмины не детектируется, наверняка ошибка матрицы тоже имеет место быть, что вносит вклады в общую ошибку, единичная мутация возможна итд - полусовпадение не случайно же допускается!).
Главное - что УПС у 3х человек есть и это даёт большую вероятность родства. Но чуть более длинный общий упс с одним человеком чем с другим (на том же регионе) может случиться просто так, случайно, из-за единичной мутации у второго, или ошибки детектирования. Вообще, пожалуйста, не судите так строго упсы.