Простого ответа на вопрос, почему для обозначения аллелей в данном конкретном месте используются буквы A и G, а не, например, T и С, не получится.
Но кое-что удалось понять. Ссылки на источники мудрых мыслей, к сожалению, на английском, на русском не ищется.
Всё что далее - размышления на тему, надеюсь верные.
Итак.
1. ДНК - двойная спираль, состоит из двух ниток (strand). В одной нитке - последовательность нуклеотидов ACGT, в другой - комплементарная ей TGCA. Нитки называют прямая (forward) и обратная (reverse), а иногда Watson strand и Crick Strand.
История терминологии:
https://biologydirect.biomedcentral.com/articles/10.1186/1745-6150-6-72. Обе нитки заканчиваются разными типами водородных связей, которые называют 3' - конец и 5'-конец. На конце хромосомы одна нитка заканчивается связью 3', а другая 5'.
В книжке по биохимии про это есть:
http://biochemistry.ru/biohimija_severina/B5873Part25-141.html3. Вопрос о том, какую нитку считать прямой, а какую обратной - зависит от многих факторов. Похоже, что каждая группа учёных делает по-своему.
Немного англоязычных форумов по этому вопросу:
https://www.biostars.org/p/3423/ и ещё
https://www.biostars.org/p/145590/4. Во время секвенирования спираль ДНК прочитывается в обоих направлениях и в RAW-файлах есть данные о прямой нитке и комплементарной ей. Пользователю сервисов типа FTDNA выдаётся информация только об одной нитке, которая считается правильной. [Ещё ДНК режется на кусочки по 50-100 нуклеотидов, но в этом кусочке обе нитки и на суть процесса это не влияет]
Вот тут есть детали процесса секвенирования ниток:
http://www.cureffi.org/2012/12/19/forward-and-reverse-reads-in-paired-end-sequencing/А тут обсуждение на англоязычном форуме, какую же нитку при секвенировании считать прямой, а какую обратной. Есть ссылки на источники:
https://www.biostars.org/p/46769/5. Из-за того, что одну и ту же последовательность ДНК можно прочитать четырьмя способами (прямо, обратно, прямо комплементарно и обратно комплементарно), возникает большая путаница, особенно при взаимодействии разных групп учёных. Вот тут пара статей о том, какие методы представления данных существуют:
http://gengen.openbioinformatics.org/en/latest/tutorial/coding/http://www.nature.com/nmeth/journal/v7/n9/full/nmeth.1491.html6.
Странный момент, совсем не уверен в правильности! Выбор направления и прямой ветки осложняется тем, что существует понятие Coding stand, т.е. кодирующей нитки:
https://en.wikipedia.org/wiki/Coding_strandЭто всё как-то связано с РНК.
Проблема в том, что в спирали ДНК нельзя выделить кодирующую нитку и комплементарную ей, так как для каждого конкретного гена кодирующей может быть то одна, то другая нитка ДНК в спирали, причём в обоих направлениях.
В связи с этим если секвенировать хромосому как она есть, выбрав основную нитку, то получится одна последовательность. Если же учитывать направления кодирования генов и кодирующие нитки для каждого гена, то получится довольно путано, но тоже правильно.
Ссылка на этот топик на англоязычном форуме уже была, но надо уточнить, откуда точно я взял мысль про направление кодирования:
https://www.biostars.org/p/3423/#34266. Тут главное помнить, что нельзя в последовательности ACGT поменять какую-то одну букву, например A на Т из-за того, что они комплементарны. Нужно заменить все буквы последовательности на комплементарные. Это если мы говорим о последовательности в составе ДНК хромосомы или, например, последовательности гена.
7. Так как же выбираются буквы A,C,G,T в файлах, которые выдаёт FTDNA или 23andMe?
А кто его знает! Думаю, что направление и нитка выбирается в соответствии с последовательностью кодирования при синтезе белка по данным гена. Либо в соответствии с тем, что было прочитано в проекте по секвенированию первого генома человека.
ведь на самом деле в большинстве случаев геном не секвенируется заново, а сравнивается с этой эталонной последовательностью (таким образом, инопланетных рептилоидов, у которых ДНК копирует человеческую, но дополнительно содержит ещё много всякого непонятного и неизвестного, мы таким образом не сможем выявить).8. В любом случае, по-видимому, то, что по адресу Rs309180 могут быть только буквы A и G, а не C и Т, связано с тем, что только эти буквы могут быть на той нитке ДНК, которая выбрана как основная.
9. Наверняка есть какой-то стандарт для выбора прямых и обратных нитей ДНК. Я подозреваю, что те, кто использует оборудование Illumina, использует их же стандарты. В детали я не вдавался, но есть статья и на этот случай:
https://www.illumina.com/documents/products/technotes/technote_topbot.pdf