Тема: Комплементарность и FamilyFinder (Прочитано 4409 раз)

Daemon2017 · « : 28 Февраль 2017, 20:50:20 »

Добрый вечер!

Коллеги, я тут решил сделать то, что не делал никогда ранее: открыл сырой файл с данными моего FF (ffo37) и удивился

Первый столбец - RSID: как я понял, это условное название участка ДНК некого эталонного человека.
Второй - номер хромосомы: тут все ясно.
Третий - позиция у меня: вроде бы, все ясно.
Четвертый - результат. И тут начинается непонимание - стоят значения AA, AG, GG, CC и т.д.. Но ведь есть правило комплементарности, которое гласит, что тимин дружит с аденином, а урацил - с цитозином

Проясните, пожалуйста, что представлено в сырых данных FF?

rLin · « **Ответ #1 :** 28 Февраль 2017, 20:56:23 »

Ну так значения в паре они же в разных хромосомах... Я сейчас посмотрел пару картинок. хромосомы из пары могут быть заметно разнесены в пространстве внутри клетки.

...А меня интересует такой вопрос, почему вот по этому адресу - https://www.snpedia.com/index.php/Rs309180 (это мутация, отвечающая за переваривание молока у взрослых) - может быть только АА, АG, GG. А, например, AC или TG, не может быть....
p.s. Исходя из прочитанного здесь - http://biochemistry.ru/biohimija_severina/B5873Part25-141.html - предполагаю, что ответ на мой вопрос такой: A всегда в паре с T и образует связь А=Т, а C всегда в паре с G и образует связь С≡G. Получается во время секвенирования хромосомы надо сначала развернуть двойную спираль, а потом уже секвенировать, причём отличать, предположим, левую спираль от правой, чтобы всегда в Rs309180 было А или G, а не Т или С...

Ответ на вопрос Daemon2017, по-видимому, заключается в том, что AG в данных FF это на самом деле A=T из двойной спирали ДНК одной хромосомы в паре и G≡C из двойной спирали другой хромосомы в паре, оба нуклеотида не пишут рядом, так как и так понятно, что они парами.

Daemon2017 · « **Ответ #2 :** 28 Февраль 2017, 21:32:35 »

Цитата: rLin от 28 Февраль 2017, 20:56:23

Ну так значения в паре они же в разных хромосомах... Я сейчас посмотрел пару картинок. хромосомы из пары могут быть заметно разнесены в пространстве внутри клетки.

...А меня интересует такой вопрос, почему вот по этому адресу - https://www.snpedia.com/index.php/Rs309180 (это мутация, отвечающая за переваривание молока у взрослых) - может быть только АА, АG, GG. А, например, AC или TG, не может быть....

Аааа, точно! Спасибо.
Т.е. АG означает, что в первой спирали на этом участке у меня А-Т, а во второй Г-Ц, так?

rLin · « **Ответ #3 :** 28 Февраль 2017, 21:35:54 »

Daemon2017, "по-моему так"(Винни-Пух ®). Мне бы хотелось, чтобы ещё кто-то это подтвердил.

И ещё, почитайте про "хромосомные территории". Как я понял, картинка, на которой хромосомы в паре рядом иллюстрируют процесс деления, в обычном состоянии в клетке они далеко друг от друга расположены.

Я только не понял, почему в определённых местах всегда пишут только А или G, а не A или С, например. Договорились что ли по поводу того, что писать в данной точке, или есть какие-то ещё причины. Знаю только, что когда дело касается mtDNA, то в некоторых местах у FTDNA стоит А, а у 23andMe T (или наоборот). И пишут, что в 23andMe ошиблись, и это неправильно.

Daemon2017 · « **Ответ #4 :** 28 Февраль 2017, 22:39:18 »

Цитата: rLin от 28 Февраль 2017, 21:35:54

Daemon2017, "по-моему так"(Винни-Пух ®). Мне бы хотелось, чтобы ещё кто-то это подтвердил.

И ещё, почитайте про "хромосомные территории". Как я понял, картинка, на которой хромосомы в паре рядом иллюстрируют процесс деления, в обычном состоянии в клетке они далеко друг от друга расположены.

Я только не понял, почему в определённых местах всегда пишут только А или G, а не A или С, например. Договорились что ли по поводу того, что писать в данной точке, или есть какие-то ещё причины. Знаю только, что когда дело касается mtDNA, то в некоторых местах у FTDNA стоит А, а у 23andMe T (или наоборот). И пишут, что в 23andMe ошиблись, и это неправильно.

А, ну отлично

Это да - просто все привыкли их изображать именно в таком виде, как они смотрятся в митозе

Вот это мне тоже не совсем понятно...

Srkz · « **Ответ #5 :** 01 Март 2017, 05:16:42 »

Цитата: Daemon2017 от 28 Февраль 2017, 21:32:35

Т.е. АG означает, что в первой спирали на этом участке у меня А-Т, а во второй Г-Ц, так?

Да, всё так

rLin · « **Ответ #6 :** 01 Март 2017, 10:38:52 »

Простого ответа на вопрос, почему для обозначения аллелей в данном конкретном месте используются буквы A и G, а не, например, T и С, не получится.
Но кое-что удалось понять. Ссылки на источники мудрых мыслей, к сожалению, на английском, на русском не ищется.
Всё что далее - размышления на тему, надеюсь верные.

Итак.
1. ДНК - двойная спираль, состоит из двух ниток (strand). В одной нитке - последовательность нуклеотидов ACGT, в другой - комплементарная ей TGCA. Нитки называют прямая (forward) и обратная (reverse), а иногда Watson strand и Crick Strand.
История терминологии: https://biologydirect.biomedcentral.com/articles/10.1186/1745-6150-6-7

2. Обе нитки заканчиваются разными типами водородных связей, которые называют 3' - конец и 5'-конец. На конце хромосомы одна нитка заканчивается связью 3', а другая 5'.
В книжке по биохимии про это есть: http://biochemistry.ru/biohimija_severina/B5873Part25-141.html

3. Вопрос о том, какую нитку считать прямой, а какую обратной - зависит от многих факторов. Похоже, что каждая группа учёных делает по-своему.
Немного англоязычных форумов по этому вопросу: https://www.biostars.org/p/3423/ и ещё https://www.biostars.org/p/145590/

4. Во время секвенирования спираль ДНК прочитывается в обоих направлениях и в RAW-файлах есть данные о прямой нитке и комплементарной ей. Пользователю сервисов типа FTDNA выдаётся информация только об одной нитке, которая считается правильной. [Ещё ДНК режется на кусочки по 50-100 нуклеотидов, но в этом кусочке обе нитки и на суть процесса это не влияет]
Вот тут есть детали процесса секвенирования ниток: http://www.cureffi.org/2012/12/19/forward-and-reverse-reads-in-paired-end-sequencing/
А тут обсуждение на англоязычном форуме, какую же нитку при секвенировании считать прямой, а какую обратной. Есть ссылки на источники: https://www.biostars.org/p/46769/

5. Из-за того, что одну и ту же последовательность ДНК можно прочитать четырьмя способами (прямо, обратно, прямо комплементарно и обратно комплементарно), возникает большая путаница, особенно при взаимодействии разных групп учёных. Вот тут пара статей о том, какие методы представления данных существуют:
http://gengen.openbioinformatics.org/en/latest/tutorial/coding/
http://www.nature.com/nmeth/journal/v7/n9/full/nmeth.1491.html

6. Странный момент, совсем не уверен в правильности! Выбор направления и прямой ветки осложняется тем, что существует понятие Coding stand, т.е. кодирующей нитки: https://en.wikipedia.org/wiki/Coding_strand
Это всё как-то связано с РНК.
Проблема в том, что в спирали ДНК нельзя выделить кодирующую нитку и комплементарную ей, так как для каждого конкретного гена кодирующей может быть то одна, то другая нитка ДНК в спирали, причём в обоих направлениях.
В связи с этим если секвенировать хромосому как она есть, выбрав основную нитку, то получится одна последовательность. Если же учитывать направления кодирования генов и кодирующие нитки для каждого гена, то получится довольно путано, но тоже правильно.
Ссылка на этот топик на англоязычном форуме уже была, но надо уточнить, откуда точно я взял мысль про направление кодирования:
https://www.biostars.org/p/3423/#3426

6. Тут главное помнить, что нельзя в последовательности ACGT поменять какую-то одну букву, например A на Т из-за того, что они комплементарны. Нужно заменить все буквы последовательности на комплементарные. Это если мы говорим о последовательности в составе ДНК хромосомы или, например, последовательности гена.

7. Так как же выбираются буквы A,C,G,T в файлах, которые выдаёт FTDNA или 23andMe? А кто его знает!
Думаю, что направление и нитка выбирается в соответствии с последовательностью кодирования при синтезе белка по данным гена. Либо в соответствии с тем, что было прочитано в проекте по секвенированию первого генома человека. ведь на самом деле в большинстве случаев геном не секвенируется заново, а сравнивается с этой эталонной последовательностью (таким образом, инопланетных рептилоидов, у которых ДНК копирует человеческую, но дополнительно содержит ещё много всякого непонятного и неизвестного, мы таким образом не сможем выявить).

8. В любом случае, по-видимому, то, что по адресу Rs309180 могут быть только буквы A и G, а не C и Т, связано с тем, что только эти буквы могут быть на той нитке ДНК, которая выбрана как основная.

9. Наверняка есть какой-то стандарт для выбора прямых и обратных нитей ДНК. Я подозреваю, что те, кто использует оборудование Illumina, использует их же стандарты. В детали я не вдавался, но есть статья и на этот случай: https://www.illumina.com/documents/products/technotes/technote_topbot.pdf

gecube_ru · « **Ответ #7 :** 27 Март 2017, 19:10:59 »

На самом деле, я уверен, что дело не в секвенировании (это отдельная технология), а в особенностях микрочипов Иллюминатор
Вот как чип определяет, что он тестирование позицию rsXXXXX, а не rsYYYYY. Получается, в чипе должна быть записана цепочка с проверяемым SNP, к которой будет "прилепляться" наша ДНК и будет сигнал

АвторТема: Комплементарность и FamilyFinder (Прочитано 4409 раз)

Daemon2017

Комплементарность и FamilyFinder

rLin

Re: Комплементарность и FamilyFinder

Daemon2017

Re: Комплементарность и FamilyFinder

rLin

Re: Комплементарность и FamilyFinder

Daemon2017

Re: Комплементарность и FamilyFinder

Srkz

Re: Комплементарность и FamilyFinder

rLin

Re: Комплементарность и FamilyFinder

gecube_ru

Re: Комплементарность и FamilyFinder