До сих пор мы занимались вопросами, возникающими при молекулярно-генеалогическом изучении любого участка ДНК, как ядерной так и митохондриальной. Теперь мы остановимся на специфических особенностях молекулы мтДНК.
Как читатель знает, молекула мтДНК - кольцевая, поэтому ее представление в виде сиквенса является результатом "линеаризации", когда выбирается некая произвольная позиция и объявляется 1-ой, а все последующие по направлению 3' позиции нумеруются как 2-ая, 3-я и тд. Также следует условиться, какую из комплементарных цепей выбрать референсной. В мтДНК наблюдается диспропорция нуклеотидного состава двух цепей: на одной из них чаще всего встречается цитозин, а на комплементарной, соответственно, гуанин. Поскольку цитозин по молекулярной массе легче гуанина, "цитозиновая" цепь называется легкой, а "гуаниновая" - тяжелой. В качестве риференса мтДНК человека была выбрана легкая цепь, "разорванная" в одной из позиций так называемой D-петли, которую объявили первой. Полностью референсную последовательность можно увидеть в базе Генбанка либо на страничке mtDNA Basics / Cambridge Reference Sequence нашего справочника. Следует упомянуть, что мтДНК человека - исторически первая полностью секвенированная молекула ДНК, работа над ней была завершена Андерсоном и коллегами в 1981 году. Ее официальное название "Cambridge Reference Sequence" (CRS) связано с местонахождением лаборатории, где была секвенирована молекула. Образец принадлежит англичанке, роженице, пожертвовавшей ученым свою плаценту. По прошествии определенного времени возникло подозрение, что в первоначальном варианте сиквенса имеются ошибки, которые действительно обнаружились при повторном секвенировании в 1999 году под руководством Эндрюса. Исправленный вариант носит название Revised CRS (rCRS), однако поскольку первая версия окончательно вышла из употребления, вместо "rCRS" нередко пишут "CRS", мы также не будем различать данные записи. По ссылкам выше находится именно сиквенс rCRS.
Варианты (гаплотипы) человеческой мтДНК можно представлять как сиквенсами, так и строчками отличий от CRS. Например, запись 16304C означает транзицию T->C в позиции 16304 риференса. Сразу отметим, что по крайней мере одной отличие от CRS носят все люди, включая даже анонимную англичанку, которой принадлежит сиквенс. Дело в том, что в первоначальной (неисправленном) варианте присутствовал лишний нуклеотид в позиции 3107. Чтобы не сдвигать устоявшуюся нумерацию позиций, было решено сохранить в обновленном CRS этот отсутствующий в действительности нуклеотид, записывая в каждый реальный сиквенс отличие 3107del.
С названиями и биологическими функциями участков молекулы мтДНК можно ознакомиться например, на страничке mtDNA Basics / mtDNA molecule нашего пособия. Большую часть молекулы, начиная с позиции 577 и до 16023 включительно занимает кодирующая область, где довольно плотно друг к другу располагаются 13 генов митохондриальных белков, 22 гена транспортной РНК и 2 гена структурной (рибосомной) РНК. О генах мы поговорим подробнее в следующем разделе, а пока будем рассматривать молекулу как последовательность нуклеотидов. Некодирующая (или "контрольная") часть заключена между позициями 1 и 576 (она называется "гипервариабельный сегмент 2" или ГВС2) а также между 16024 и 16569 ("гипервариабельный сегмент 1" или ГВС1). Иногда в конце участка ГВС2 выделяют область ГВС3, но мы данным термином пользоваться не будем. Контрольная часть также выполняет важные биологические функции, хотя генов в собственном смысле слова на ней нет. Наиболее вариабельными являются участки в позициях 16090-16400 и 55-350, которые и секвенируют чаще всего. До 90% образцов можно классифицировать, отнеся к какой-либо большой гаплогруппе только на основании сиквенсов данных участков.
Скорость мутирования мтДНК на разных участках различна. Так, между позициями 16090 и 16365 происходит одна субституция за примерно 16000-18000 лет. В кодирующей области, которая примерно в 40 раз длиннее, чем область 16090-16365, одна субституция происходит примерно 1 раз в 5000 лет - таким образом, скорость мутаций в кодирующей части более чем в 10 раз ниже, чем в контрольной. Наконец, для всей молекулы установлена скорость субституций примерно 1 раз за 3000 лет. Для делеций и инсерций скорости мутирования не определены, заметим только, что есть небольшие участки где такие мутации очень часты, тогда как в остальной части молекулы они исключительно редки.
Определяющие мутации гаплогрупп (или "мотивы") можно представлять двумя способами. Первый и самый частый способ - это запись предкового сиквенса гаплогруппы в формате отличия от риференса, то есть CRS. Например, предковый сиквенс гаплогруппы T в такой записи примет вид:
73 263 709 750 1438 1888 2706 4216 4769 4917 7028 8697 8860 10463 11251 11719 13368 14766 14905 15326 15452A 15607 15928 16126 16294
Напоминаем читателю, что номер позиции без указания нуклеотида обозначает транзицию по отношению к риференсу, о таком сокращении записи мы условились в главе о выравниваниях. Понятно, что здесь речь идет не о мутациях, а об отличиях от сиквенса CRS. Второй способ записи можно применять, если известен непосредственный предок рассматриваемого сиквенса на древе гаплогрупп, в данном случае это будет предковый сиквенс гаплогруппы JT, в формате отличия от CRS он выглядит так:
73 263 750 1438 2706 4216 4769 7028 8860 11251 11719 14766 15326 15452A 16126
И вот по отношению к нему можно записать предковый сиквенс T во втором виде - как список мутаций, произошедших на пути от JT к T:
709GA 1888GA 4917AG 8697GA 10463TC 13368GA 14905GA 15607AG 15928GA 16294CT
Если "склеить" две последние строки, заменив записи переходов "TC", "AG" и т.д. соответственно на "C", "G" и т.д. (то есть на нуклеотиды, представленные в соответствующей позиции у сиквенсов гаплогруппы T), мы получим в точности первую строчку - мотив гаплогруппы T. Можно поступить и иначе, например в дереве гаплогрупп "пойти" по направлению от CRS к предковому узлу гаплогруппы T, попутно "наращивая" строку отличий от CRS, и в конце концов мы получим тот же мотив T. Заметим, что при обратном движении - от любого узла к CRS - длина строки-мотива не увеличивается, а наоборот уменьшается, так как CRS является риференсом.
Наиболее часто читатель будет сталкиваться с сиквенсами контрольной области, поэтому оставшуюся часть раздела мы посвятим некоторым особенностям гаплотипов ГВС1 и ГВС2. Подавляющее большинство людей имеет транзицию 263G в ГВС2, так как в качестве риференса был выбран сиквенс с редким вариантом 263A. Помимо ничтожно малого количества сиквенсов, близкородственных CRS, 263A встречается в африканской гаплогруппе L0. Более половины европейцев носит вариант 73G в ГВС2, в то время как 73A характерен для гаплогруппы R0, к которой относится и CRS. Далее, порядка 2/3 людей имеют транзицию 16519C. Среди прочих достаточно "быстрых" мутаций можно отметить транзиции в позициях 152, 16311, 146, 195, 16189, 16093, 16362, 150 и 204. В кодирующей области молекулы чаще всего мутирует позиция 709.
У более чем половины людей есть вставка одного или даже двух нуклеотидов C после позиции 315: 315.1C-315.2C, а иногда и после 309: 309.1C. Также нередко можно встретить вставку C после позиции 16193: 16193.1C. Указанные вставки происходят на участках, называемых C-трактами. Самые длинные C-тракты находятся в областях 16180-16194:
AAAACCCCCTCCCCA
и 302-316:
ACCCCCCCTCCCCCG
Вариации длины здесь очень часты, нередко даже ближайшие родственники по женской линии имеют разное количество нуклеотидов C в данных позициях. Иногда срединный T превращается в C в результате транзиций, в формате отличия от CRS это записывается как 16189C и 310C соответственно. В главе о выравнивании сиквенсов мы также упоминали область 514-524, где часто встречаются вставки и удаления пар AC. Во всех перечисленных областях 16180-16194, 302-316 и 514-524 при поиске совпадений сиквенсов и построении филогении вставки и удаления C (или AC cоответственно) игнорируют из-за огромной скорости таких мутаций, однако остальные типы изменений на данных участках, например транзиции, трансверсии и вставки нуклеотидов, отличных от C, имеют значение и учитываются при анализе.
http://gentis.ru/info/mtdna-tutorial