Тема: Есть ли тесты Y-DNA/mtDNA в России? (Прочитано 2447 раз)

iliakan · « **Ответ #15 :** 17 Октябрь 2021, 14:44:28 »

Да, их я уже посмотрел, но там про это ничего нет.

Farroukh · « **Ответ #16 :** 17 Октябрь 2021, 16:47:30 »

Вы как математик должны знать понятие граф. Чем "глубже" тест - тем более точное место на ветвях древа.

iliakan · « **Ответ #17 :** 17 Октябрь 2021, 17:04:30 »

Да, я знаю, что такое граф

Ок, если начать с основ.

Есть цепочка ДНК - это последовательность из GACT.

Правильно ли я понимаю, что SNP - это когда на определённой позиции этой цепочки мы смотрим, какой именно там белок?
Номер SNP - это по сути номер позиции в цепочке ДНК (белок на которой у разных людей может быть разным)?

Далее, я пытаюсь понять фразу "По глубине (не ширине!) покрытия Y - FTDNA впереди всех.".

Ширина - как я понимаю, количество позиций ("снипов"), на которых мы смотрим белок.

Но что такое глубина? Это как-то связано с имеющейся базой данной FTDNA? Может быть, речь о том, что в FTDNA много людей?
Или что-то другое?

Farroukh · « **Ответ #18 :** 17 Октябрь 2021, 17:30:27 »

Если познания настолько глубоки, то откройте английскую википедию и прочтите про Y-SNP.

DELTA · « **Ответ #19 :** 17 Октябрь 2021, 17:55:23 »

Цитата: iliakan от 17 Октябрь 2021, 17:04:30

... Далее, я пытаюсь понять фразу "По глубине (не ширине!) покрытия Y - FTDNA впереди всех.".
Но что такое глубина? Это как-то связано с имеющейся базой данной FTDNA? Может быть, речь о том, что в FTDNA много людей?
Или что-то другое?

Глубина покрытия это количество чтений участка, у меня в BigY-500 максимальная глубина покрытия 188, средняя 36; в BigY-700 максимальная глубина покрытия 248, средняя 33.

iliakan · « **Ответ #20 :** 17 Октябрь 2021, 19:37:41 »

То есть, "глубина больше" означает, что FTDNA считывает данные точнее?

Количество прочтений влияет только на количество ошибок при чтении, верно понимаю?

DELTA · « **Ответ #21 :** 17 Октябрь 2021, 19:45:36 »

Цитата: iliakan от 17 Октябрь 2021, 19:37:41

То есть, "глубина больше" означает, что FTDNA считывает данные точнее?

Количество прочтений влияет только на количество ошибок при чтении, верно понимаю?

Больше проходов чтения, выше точность чтения.

Val_Metov · « **Ответ #22 :** 17 Октябрь 2021, 19:49:00 »

Глубина bigY нельзя сравнивать напрямую с глубиной WGS. Технологии отличаются. BigY амплифицируют определенные (наиболее важные) участки Y хромосомы и это позволяет увеличить глубину. Но это дает не только плюсу но и минусы. На это, в том числе, Томас Кран, как разработчик BigY обращал внимание.
Также нельзя напрямую сравнивать 30x 150 bp с 15x 400 bp. Или например Pac Bio с их длинными прочтениями. У них всего несколько прочтений но гигантская длина. Чем длиннее участок тем больше шанс, что при сборке не будет ошибка итд.

Автору темы советую самостоятельно посмотреть обучающие курсы на stepetic, coursera итд. Бионформатика, сборка генома, секвенирование, там много информации. Займет время, но иного выхода нет.

Я не программист, мне просто интересны и технологии и работа с данными и история и генеалогии. Опишу как я сам понимаю.

Итогом процесса секвенирования генома должен стать файл, который содержит все ваши хромосомы. Хромосомы разного размера. В целом +- 3 млрд последовательностей нуклеотидов. Например Y хромосома имеет координаты от 1 до (примерно) 57 млн. SNP бывают разные, но упрощенно можно сказать, что они точечные, происходят в 1 позиции. Например мой фамильный SNP находится по адресу 11 502 003 (A в T).
Процесс секвенирования основан на последовательности действий. Грубо говоря это экстракция и само секвенирование. Экстракция это подготовка до секвенатора, всякие реактивы итд. А дальше уже все зависит от особенностей конкретного секвенатора. Каждый секвенатор имеет технологические ограничения по минимальной длине прочтения. BigY это (почти всегда) 100 bp. т.е. 100 нуклеотидов. Весь геном будет разбит на очень большое мелких фрагментов с длиной 100 нуклеотидов. Различают SE (Single end) и PE (Pared end). Смысл PE в том, что секвенатор прочитывает сразу с двух концов по 100 нуклеотидов. Вроде должно получится 200, но на самом деле не так. 100 с каждого края не означает непрерывную последовательность.
У Nebula (чаще всего) прочитывается 150 bp. Тоже PE. YSEQ - 400 bp, но у них не PE а SE.
Почему это важно?

Представьте ситуацию, у вас очень большое количество маленьких кусочков пазла и вам нужно нужно как-то это собрать. Логично, что чем больше размер кусочка, тем вам будет легче.
Сборка генома эта тоже как собирание пазла. Сборщик (чаще всего используют bwa-mem2) перебирает огромной количество мелких частичек и на выходе дает готовый файл, чаще всего формата Bam. Сборка бывает 2х типов де ново. Т.е. с нуля. Это очень сложно и редко кто этим занимается. Если только не тесты Pac Bio. В основном сборка идет на готовый референс или эталон. Это уже собранный ученным образец генома. Актуальная версия H38. Именно такую версию сейчас использую и в FTDNA и Nebula и YSEQ. А вот Данте выдает, до сих пор, H37.
Сборщик конечно не идеален и иногда допускает ошибки. Вероятность ошибок снижается, если размер участков больше. Особенно когда возникают редкие SNP. Сборщик может ошибиться из нестандартных значений и чем длиннее прочтение тем меньше ошибок. В идеале.

Если вы откроете любую ветку на Yfull и нажмете info то в разделе образцы вы увидите характеристики качественные. Например, типичное значение для Nebula - 17X, 23.3 Mbp, 150 bp. 17x это сколько раз прочитался каждый участок. Почему эта цифра важна? Никто не может гарантировать, что секвенатор прочитает всю вашу последовательность. Чтобы уменьшить шансы на пропуски приходится проходить участки много раз. Чем больше тем лучше. Например у Nebula есть 30x и 100x. Это средние значения. Для Y эти цифры всегда ниже. Всегда есть шанс, что некоторые места останутся не затронутыми.

23,3 Mbp это грубо говоря 99% Y хромосомы, доступный на сегодня. У FTDNA эта цифра коло 18 - 18,5. Разница примерно 25%. Только стоит учитывать, что 99% включает и участки прочитанные всего 1 раз. Это мало. Хотя бы 3-4 было бы, это уже что-то. Но если например, у ваших совпаденцев тоже будут SNP на этих слабо прочитанных участках, то вам их зачтут. Или вы можете дополнительно протестировать конкретные места в YSEQ (18$ за 1 тест).
Длина прочтение влияет еще на STR маркеры. Некоторые маркеры расположены на участке Y хромосомы который значительно превышает стандартные 100-150. Например после теста Nebula, обычно, Yfull достает около 85 из Y111 набора. YSEQ говорит, что их 400bp тест дает возможность вытащить почти все маркеры.
FTDNA обходит эти ограничения дополнительным тестом на Y111 маркеров. Т.е. SNP отдельно, маркеры отдельно. Как по мне, то если у вас есть SNP, то Y37 набора вполне достаточно, чтобы прицелиться в ближайших совпаденцев у которых нет BigY\WGS.

150 bp это длина прочтения 1го. Т.е. размер кусочка пазла.
Вбейте в гугл, например, длина прочтения 150 bp. Много информации есть.

Cтоит еще раз напомнить, что WGS это BigY + FF + MtDNA + Bam.

iliakan · « **Ответ #23 :** 17 Октябрь 2021, 20:47:30 »

Спасибо, на данный момент пожалуй "точность" как-то понятно, а далее добавлю в ToDo курсеру.

Какой-то конкретный?

Нашел три:
- https://www.coursera.org/learn/introduction-genomics
- https://www.coursera.org/specializations/genomic-data-science
- https://www.coursera.org/learn/dna-sequencing

Val_Metov · « **Ответ #24 :** 17 Октябрь 2021, 21:10:31 »

Здесь я ничего уже не подскажу, курсы с виду интересные. Я вот с этого начинал https://www.coursera.org/learn/bioinformatika/home/welcome
Потом несколько на stepik.
Если хотите потренироваться на полногеномных данных напишите в личку, дам доступ. Хотя много таких данных есть по научным проектам. Интереснее всего на своих данных.

Farroukh · « **Ответ #25 :** 17 Октябрь 2021, 22:41:40 »

По игреку. Атлас выдал результат типа T-L206, от Адама до предка, жившего 15 тыс. лет назад.
BigY потенциально может выдать результат от Адама вплоть до отца родного

Олег Ильдусович

3rd Cousin - 5th Cousin Shared DNA 38 cM Longest Block 24 cM КТО-НИБУДЬ ПОДСКАЖИТЕ НАСКОЛЬКО ЗДЕСЬ РОДСТВО?

FELIX

Цитата: Олег Ильдусович от 06 Сентябрь 2022, 14:58:18

3rd Cousin - 5th Cousin Shared DNA 38 cM Longest Block 24 cM КТО-НИБУДЬ ПОДСКАЖИТЕ НАСКОЛЬКО ЗДЕСЬ РОДСТВО?

Степень родства тут написана. Ключевое - это предполагаемая степень родства.

К "кузинам" добавляйте единицу (+1): четвероюродное-шестиюродное родство. Или варианты.

АвторТема: Есть ли тесты Y-DNA/mtDNA в России? (Прочитано 2447 раз)

iliakan

Re: Есть ли тесты Y-DNA/mtDNA в России?

Farroukh

Re: Есть ли тесты Y-DNA/mtDNA в России?

iliakan

Re: Есть ли тесты Y-DNA/mtDNA в России?

Farroukh

Re: Есть ли тесты Y-DNA/mtDNA в России?

DELTA

Re: Есть ли тесты Y-DNA/mtDNA в России?

iliakan

Re: Есть ли тесты Y-DNA/mtDNA в России?

DELTA

Re: Есть ли тесты Y-DNA/mtDNA в России?

Val_Metov

Re: Есть ли тесты Y-DNA/mtDNA в России?

iliakan

Re: Есть ли тесты Y-DNA/mtDNA в России?

Val_Metov

Re: Есть ли тесты Y-DNA/mtDNA в России?

Farroukh

Re: Есть ли тесты Y-DNA/mtDNA в России?

Олег Ильдусович

Re: Есть ли тесты Y-DNA/mtDNA в России?

FELIX

Re: Есть ли тесты Y-DNA/mtDNA в России?