АвторТема: Deep sequencing of 10,000 human genomes  (Прочитано 6822 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн ШадАвтор темы

  • Главный модератор
  • *****
  • Сообщений: 6313
  • Страна: ru
  • Рейтинг +1212/-4
  • Ex oriente lux
  • Y-ДНК: Q-Y2750
  • мтДНК: J1c2z
Deep sequencing of 10,000 human genomes
« : 05 Октябрь 2016, 16:10:08 »
Deep sequencing of 10,000 human genomes
Amalio Telenti et al., 2016
Цитировать
Abstract
We report on the sequencing of 10,545 human genomes at 30×–40× coverage with an emphasis on quality metrics and novel variant and sequence discovery. We find that 84% of an individual human genome can be sequenced confidently. This high-confidence region includes 91.5% of exon sequence and 95.2% of known pathogenic variant positions. We present the distribution of over 150 million single-nucleotide variants in the coding and noncoding genome. Each newly sequenced genome contributes an average of 8,579 novel variants. In addition, each genome carries on average 0.7 Mb of sequence that is not found in the main build of the hg38 reference genome. The density of this catalog of variation allowed us to construct high-resolution profiles that define genomic sites that are highly intolerant of genetic variation. These results indicate that the data generated by deep genome sequencing is of the quality necessary for clinical use.

http://www.pnas.org/content/early/2016/10/03/1613365113.abstract

Если не ошибаются те, кто смотрел - все данные в открытом доступе.

UPD База данных - на отдельном сайте:  http://hli-opensearch.com/.  Исходные данные - недоступны.
« Последнее редактирование: 06 Октябрь 2016, 09:51:15 от Шад »

Оффлайн ШадАвтор темы

  • Главный модератор
  • *****
  • Сообщений: 6313
  • Страна: ru
  • Рейтинг +1212/-4
  • Ex oriente lux
  • Y-ДНК: Q-Y2750
  • мтДНК: J1c2z
Re: Deep sequencing of 10,000 human genomes
« Ответ #1 : 05 Октябрь 2016, 19:54:43 »


Бонни Шрэк пишет:
Цитировать
Here's a discovery we can use! They discovered three hypervariable regions in the autosomal genome. One on Chr8, and two on Chr16.
Chr8 - 3,200,000 to 4,500,000
Chr16 - 6,400,000 to 7,850,000
Chr16 - 77,900,000 to 79,583,500

Оффлайн Teresh

  • Сообщений: 392
  • Страна: ru
  • Рейтинг +156/-0
  • Y-ДНК: R1a [YP237+ YP578+]
  • мтДНК: U5a1f
Re: Deep sequencing of 10,000 human genomes
« Ответ #2 : 06 Октябрь 2016, 01:22:54 »
Для просмотра данных у них создан специальный сайт http://hli-opensearch.com/.
Там надо зарегистрироваться, подтвердить свой e-mail и дальше можно искать что Вам нужно.
Только вот у них там все в GRCh38 (hg38), а на YFull.com - в GRCh37 (hg19). Так что надо сначала (при необходимости) перегнать координаты из одной системы в другую, например, здесь: http://genome.ucsc.edu/cgi-bin/hgLiftOver.

Например, на YFull.com снип Z280 (R1a) представлен как 6229881 С->T, а у этих товарищей в поиске надо писать chrY:6361840:C:T.

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Сообщений: 5489
  • Страна: hr
  • Рейтинг +2876/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Deep sequencing of 10,000 human genomes
« Ответ #3 : 06 Октябрь 2016, 09:38:02 »
Для просмотра данных у них создан специальный сайт http://hli-opensearch.com/.
Там надо зарегистрироваться, подтвердить свой e-mail и дальше можно искать что Вам нужно.
Только вот у них там все в GRCh38 (hg38), а на YFull.com - в GRCh37 (hg19). Так что надо сначала (при необходимости) перегнать координаты из одной системы в другую, например, здесь: http://genome.ucsc.edu/cgi-bin/hgLiftOver.

Например, на YFull.com снип Z280 (R1a) представлен как 6229881 С->T, а у этих товарищей в поиске надо писать chrY:6361840:C:T.
Я вчера посмотрел и мне показалось что у них представлены в поиске только снипы расположенные в генах, но похоже что это не совсем так. В любом случае интересная выборка получается:
R1a-M420 - 2.3%
R1a-M417 - 2.0% , то есть на реликтовые ветви R1a (M420+ M417-) приходится 0.3% от всей выборки или 13.04% от всех R1a из выборки!!! Или напрашивается мысль что часть образцов недотипирована.
R1a-Z280 - 0.68%
R1a-M458 - 0.49%
R1a-Z284 - 0.24%
R1a-L664 - 0.10%
R1a-Z93 - 0.74%
Хотя уже видно что есть нестыковки - 0.74+0.10+0.24+0.49+0.68=2.25 !=2.0 :)

Из реликтовых снипов:
R1a-YP4141 - <0.1%
R1a-YP1272 - <0.1%

Без исходников особой полезности базы не видно, кроме как проверить свои приватные снипы на предмет присутствия в базе и выделения новых ветвей. ;)
В качестве выборки, имхо, не годится, так как не известна географическая привязка образцов.

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Сообщений: 5489
  • Страна: hr
  • Рейтинг +2876/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Deep sequencing of 10,000 human genomes
« Ответ #4 : 06 Октябрь 2016, 10:02:23 »
R1a-M420 - 2.3%
Для сравнения - R1b в их базе 77%

Оффлайн ШадАвтор темы

  • Главный модератор
  • *****
  • Сообщений: 6313
  • Страна: ru
  • Рейтинг +1212/-4
  • Ex oriente lux
  • Y-ДНК: Q-Y2750
  • мтДНК: J1c2z
Re: Deep sequencing of 10,000 human genomes
« Ответ #5 : 06 Октябрь 2016, 10:04:06 »
R1a-M420 - 2.3%
Для сравнения - R1b в их базе 77%

В каком формате вводятся данные по снипу в окне поиска?

UPD

HLI Search allows multiple types of searches, including keywords, operators, genomic coordinate and gene searches. Users can combine multiple syntaxes into a query. All contents (in the window below) are searchable. Keywords are case-insensitive.


Rule on using the operators: e.g. '+' needs to be places in front of other operators. Example: pathogenic + dm MYH7 missense af<0.1% is interpreted as: Pathogenic 'OR' DM variants 'AND' in MYH7 gene 'AND' missense as variant type 'AND' with allele frequency less than 0.1%

Operator   Definition
+   or (union)
-   but not
<   less than
>   greater than
space   and (intersection)
rs123   all variants tagged with rsID
hgmd   all variants in HGMD
clinvar   all variants in ClinVar
pgmd   all variants in PGMD
pathogenic   pathogenic or likely pathogenic variants in ClinVar
benign   benign or likely benign variants in ClinVar
disease   any disease terms (e.g. parkinson)
condition   any condition terms (e.g. hyperthermia)
drug   any medications (e.g. warfarin)
gene   any HGNC symbol (e.g. MYH7)
any c.hgvs   HGVS nomenclature on the nucleotide level (e.g. c.5159G>A)
any p.hgvs   HGVS nomenclature on the protein level (e.g.p.ARg1720Gln)
CPRA   chromosome:position:reference:alternative (e.g. chr17:43063930:AC:T)
region   Genomic region (e.g. chr17:7173431-7179564)
missense   all variants with variant type missense
stopgain   all variants with variant type stopgain
stoploss   all variants with variant type stoploss
startloss   all variants with variant type startloss
inframe   all variants with variant type inframe
frameshift   all variants with variant type frameshift
splice   all variants with variant type splice
donor   all variants with variant type donor
acceptor   all variants with variant type acceptor
upstream   all variants with variant type upstream
downstream   all variants with variant type downstream
3utr   all variants with variant type 3utr
af   allele frequency
genes   an advanced operator to prioritize genes/variants for disease

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Сообщений: 5489
  • Страна: hr
  • Рейтинг +2876/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Deep sequencing of 10,000 human genomes
« Ответ #6 : 06 Октябрь 2016, 10:08:58 »
R1a-M420 - 2.3%
Для сравнения - R1b в их базе 77%

В каком формате вводятся данные по снипу в окне поиска?
http://forum.molgen.org/index.php/topic,9404.msg352363.html#msg352363
:)
учтите что позиция указывается по hg38

Оффлайн smal

  • Сообщений: 1057
  • Страна: by
  • Рейтинг +409/-3
  • Y-ДНК: R-CTS9219
  • мтДНК: U4a
Re: Deep sequencing of 10,000 human genomes
« Ответ #7 : 06 Октябрь 2016, 11:13:56 »
Посмотрел ветку R1b-Z2103 и ее субклады, такая статистика:

S20902/Z8130  0.62
CTS1078/Z2103  0.57
Z2105  0.54

Z2106  0.23
CTS7822  0.16
CTS9219  0.16
BY593/PH1723/V2986  <0.1

L584  0.12
FGC14587/Y13095 0.12

A367/Y4362  0.13
A368/Y4367  0.13

Оффлайн ШадАвтор темы

  • Главный модератор
  • *****
  • Сообщений: 6313
  • Страна: ru
  • Рейтинг +1212/-4
  • Ex oriente lux
  • Y-ДНК: Q-Y2750
  • мтДНК: J1c2z
Re: Deep sequencing of 10,000 human genomes
« Ответ #8 : 06 Октябрь 2016, 11:50:58 »
R1a-M420 - 2.3%
Для сравнения - R1b в их базе 77%

В каком формате вводятся данные по снипу в окне поиска?
http://forum.molgen.org/index.php/topic,9404.msg352363.html#msg352363
:)
учтите что позиция указывается по hg38

Да, уж. Сложно как. Я беру самый простой вариант, определяющий Q снип - M242 (rs8179021)
13527976 - Y-Position NCBI36
15018582- Y-Position GRCh37
А здесь:
1290667 - hg38

Оффлайн ШадАвтор темы

  • Главный модератор
  • *****
  • Сообщений: 6313
  • Страна: ru
  • Рейтинг +1212/-4
  • Ex oriente lux
  • Y-ДНК: Q-Y2750
  • мтДНК: J1c2z
Re: Deep sequencing of 10,000 human genomes
« Ответ #9 : 06 Октябрь 2016, 11:59:16 »
Есть ли какой-нибудь сервис, который бы позволил каждой позиции в GRCh37 (hg19) сопоставить позицию в GRCh38 (hg38)?

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Сообщений: 5489
  • Страна: hr
  • Рейтинг +2876/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Deep sequencing of 10,000 human genomes
« Ответ #10 : 06 Октябрь 2016, 12:09:04 »
Есть ли какой-нибудь сервис, который бы позволил каждой позиции в GRCh37 (hg19) сопоставить позицию в GRCh38 (hg38)?
Указанный выше http://genome.ucsc.edu/cgi-bin/hgLiftOver
:)
я иногда пользуюсь pyliftover или CrossMap.
Есть еще инструмент от NCBI

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Сообщений: 5489
  • Страна: hr
  • Рейтинг +2876/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Deep sequencing of 10,000 human genomes
« Ответ #11 : 06 Октябрь 2016, 12:10:06 »
поискал свои приватные снипы
значит моих приватных снипов уже меньше можно считать?
Какие ваши приватные снипы вы нашли в научной базе данных?

Оффлайн Nimissin

  • Сообщений: 2202
  • Рейтинг +642/-0
  • Y-ДНК: N-M178 L839+ P298+ M2019+ M2118+ M1991+ M1988+
  • мтДНК: C4b4
Re: Deep sequencing of 10,000 human genomes
« Ответ #12 : 06 Октябрь 2016, 12:14:07 »
Есть ли какой-нибудь сервис, который бы позволил каждой позиции в GRCh37 (hg19) сопоставить позицию в GRCh38 (hg38)?
https://genome.ucsc.edu/cgi-bin/hgLiftOver
После настройки перевода GRCh37 (окно Original Assembly) в GRCh38 (окно New Assembly)  надо набрать в основном окне позицию в формате chrY:начало-конец. Значения "начала" и "конца" могут совпадать (это координата одной позиции для снипа). Жмем на кнопку Submit (справа). Результат смотрим в текстовом файле после нажатия кнопки View Conversions. Удачи!

Оффлайн Lesla

  • Главный модератор
  • *****
  • Сообщений: 9151
  • Страна: ru
  • Рейтинг +2331/-9
  • FTDNA: 154400 (Big Y - 283049)
  • Y-ДНК: R1a-YP682 (VK01/VK03+)
Re: Deep sequencing of 10,000 human genomes
« Ответ #13 : 06 Октябрь 2016, 13:04:56 »
Есть один C3(M407+) (позиция - chrY:2882367:A:G), с пометкой - unobserved

Оффлайн kirroid

  • Выгляда як ядвинга
  • Сообщений: 1066
  • Страна: by
  • Рейтинг +338/-6
  • Из Вайшнории
  • Y-ДНК: I1-M227
Re: Deep sequencing of 10,000 human genomes
« Ответ #14 : 06 Октябрь 2016, 13:06:37 »
I1-M227 присутствует (<0.1%), но представлен исключительно западно-европейской "нормандской" веткой (Y7925), что не удивительно, учитывая ранееупомянутый сильный крен базы в сторону Западной Европы (R1b = 77%).

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.


Rambler's Top100