У меня вопрос прежде всего по онтологическому статусу этих снипов. Значит они точно существуют? Но последовательности из нуклеотидов в игрек-хромосоме - плавающая? Поэтому нет чёткости в определении позиции снипа. Как тут исключить обратимость замены в данной позиции (поправка на обратимость мутации), если мы пытаемся идентифицировать конкретного общего предка, у которого случилась эта конкретная необратимая мутация.
Для волнений нет оснований. Давайте посмотрим на "раскрашенную" Y-хромосому.
Credit:
Genome Decoration Page/NCBIВ ней есть разные области (раскраска - не полная, конечно же, но основная). Уже даже такое деление как бы намекает, что есть разные области, которые надо рассматривать!
В начале расположены Теломеры - в их составе повторяющиеся последовательности типа TTAGGG (в цикле). При каждом цикле репликации их длина уменьшается (так как ДНК-полимераза не в состоянии реплицировать с самого края - ну, так уж оно устроено). Даже их наличие будет означать, что у одного индивида в одной клетке теломера, например, имеет длину 600 оснований, а в соседней клетке - 594 основания.
Или, например, область синего цвета, подписанная q12 - это вообще "полный атас" - основания там расположены как попало и до сих пор непонятно, чего от нее ждать (ну, я конечно, утрирую - есть исследования, которые находят там куски полезных РНК и всякое-всякое).
Соответственно, встает вопрос - а с какого числа начать считать основания?
С 1 или с 7 ? Чтобы у разных клеток потом (когда теломеры закончатся и начнется осмысленный текст ДНК) - позиции у результатов совпали?
Но как бы то ни было, потом-то рано или поздно, начинается "осмысленный текст" - и вот уже он слабо подвержен мутациям.
Разумеется, осмысленный текст перемежается другими "вставками" (не осмысленными или слабо осмысленными).
Так, YP417 располагается как раз в такой "благопристойной" зоне, в районе q11.221
Последовательность, которая там расположена, достаточно уникальна и другой похожей в геноме не встречается.
Так, если рассмотреть примерно 50 позиций около YP417, то они выглядят так:
у не-мутантов:
GTTCATTGAGTTCAAACATCTAGGAAT
GCAACAATAAAGACTTGAGTTTCTGC
у мутантов с YP417:
GTTCATTGAGTTCAAACATCTAGGAAT
ACAACAATAAAGACTTGAGTTTCTGC
Основания, расположенные рядом с YP417, сохраняют свою очередность при передаче потомкам.
Это, можно сказать, стабильный регион и именно наличие их делает возможным то, чем мы тут все
страдаем занимаемся.
Ну и договорились (скажем так), что в hg38 позиция места этого снипа будет 13756598.
Соответственно, если в результате анализа кого-то находится последовательность (и мы не знаем, где она была в ДНК - может, вообще из другой хромосомы):
CATCTAGGAAT
ACAACAATAAAGACT (я взял кусочек поменьше, чем 50 оснований)
то при анализе смотрится, - А откуда она могла быть взята - давайте сравним по всему геному, где она лучше всего может "совпасть".
И говорится - Ага, мы нашли последовательность для области снипа YP417 (все соседние совпадают с теми, что должны быть возле него), да и на самом месте снипа имеется A вместо G - значит, это кусочек ДНК человека с YP417.
YFull в свое время дополнительно анализировал стабильность разных регионов Y-ДНК, чтобы среди "стабильных" регионов определить те, которые можно использовать для расчета возрастов TMRCA. Но это уже "бантики" как бы.