АвторТема: Компания Dante Labs  (Прочитано 91548 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 37082
  • Страна: ca
  • Рейтинг +3691/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #420 : 05 Октябрь 2019, 00:53:06 »
Скажем, у меня из Биг Игрек 500, Биг Игрек 700, Данте Лабз - просто стоит Биг Игрек 700?

При этом непрочитанные позиции в нём никак не дополнены результами др. тестов?

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 37082
  • Страна: ca
  • Рейтинг +3691/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #421 : 05 Октябрь 2019, 00:55:26 »
Теперь про фантазии.

Хотелось бы сделать объединённый ВАМ файл, по результатам двух тестов.

::)

Оффлайн Srkz

  • Сообщений: 6234
  • Страна: ru
  • Рейтинг +2904/-2
  • Y-ДНК: N-L1025 Y60725
  • мтДНК: U4a1e-pre T16093C T16311T
Re: Компания Dante Labs
« Ответ #422 : 05 Октябрь 2019, 04:51:37 »
Тaк и я тогда же )). Скачал опять _WGZ.snp.vcf.gz файл. Размер файла сильно изменился с прошлого раза
Мои vcf-файлы такие:
...grch37.indel.vcf
...grch37.snp.vcf  здесь смотрел мито
...grch37.sv.vcf

Оффлайн MCB

  • Сообщений: 69
  • Страна: 00
  • Рейтинг +39/-1
Re: Компания Dante Labs
« Ответ #423 : 05 Октябрь 2019, 21:01:45 »
20 июня на фейсбуке была опубликована новая бета-версия программы WGS Extract. Теперь можно генерировать комбинированный файл исходных данных "из коробки".
Ну надо же, как я поторопился :) еще в мае склепал своим самопалом, что оказалось немного зануднее, чем я надеялся. Да, к похожим выводам с фтДНК и я пришел в ходе этого сравнения - что примерно 1% маркеров имеют разные генотипы между данныи фтДНК и Данте, и что в основном это связано с тем, что лажает фтДНК. Больше всего таких различий, когда Данте утверждает, что оба аллеля wildtype, а familytreeDNA - что оба аллеля нестандартные. Мне показалось совершенно невероятным, что в таком количестве маркеров секвенирование имело бы нулевое покрытие, и вообще пропустило бы гомозиготный геноптип, но специально в БАМ-файл я не лазил.

Однако, зная, как ведут себя некачественные маркеры на чипах, и рассудивши, что многие из лажовых маркеров фтДНК не все время, не 100% сстематически дают неправильный генотип, а лишь время от времени, возможно, от группы к группе образцов меняя поведение (batch effect), я решил попробовать просто сравнить поведение оригинальных и воссозданных файлов формата фтДНК при загрузке на Myheritage.

И, действительно, воссозданные файлы работали лучше (с известными дальними родственниками все совпадения сохранились, причем иногда прибавилось по 10-15 сМ; и в этнической раскладке Myheritage "увидел", наконец, "финскую" компонентu, которая мне хорошо известна и по семейной истории, и по данным 23andMe, но при загрузке оригинальных данных фтДНК не определялась).

Так что мой вывод, что достаточно многие из некачественных маркеров у фтДНК не просто тупо систематически давали одинаковый результат у всех тестируемых, а реально производили шум и мешали алгоритмам анализа...


Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 37082
  • Страна: ca
  • Рейтинг +3691/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #424 : 05 Октябрь 2019, 23:43:35 »
У меня вопрос к Владимиру.

Правильно ли понимаю, что сейчас при наличии нескольких результатов по одному тестируемому, просто выбирается лучший?

То есть, никакой объединённый файл не создаётся?

И не планируется?


Молчание было ему ответом.    :-\

Собственно и так ясно, что Биг Игрек 700 (если сравнивать продукты ФТДНА и Данте Лабз) - по качеству всего лучше.

Непрочитанные в нём, но хорошего качества в других тестах позиции, - не выставляются и не используются при расчёте возрастов. (Что, справедливости ради, даёт не очень большую погрешность, учитывая расплывчатость самого метода.)

Основное резюме: данные Лонг Рида загружать в ИгрекФулл смысла нет абсолютно никакого.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 37082
  • Страна: ca
  • Рейтинг +3691/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #425 : 05 Октябрь 2019, 23:44:59 »
Посмотрю, какого качества получится объединённый аутосомный файл.

Сравню количество ноу-коллов в обычной и ЛонгРид версиях от Данте.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 37082
  • Страна: ca
  • Рейтинг +3691/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #426 : 05 Октябрь 2019, 23:50:05 »
Напомню статистику:


Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 37082
  • Страна: ca
  • Рейтинг +3691/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #427 : 05 Октябрь 2019, 23:55:55 »
Два Биг Игрека слили воедино.
Данте Лабз результат оставили особняком.
Несмотря на наличие двух сэмплов (мой и египтянина) на момент апдейта дерева, ветвь отдельную не выделили. Возраст не просчитали.    :(



Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 37082
  • Страна: ca
  • Рейтинг +3691/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #428 : 06 Октябрь 2019, 00:03:24 »
одно прочтение приватного снипа - стоит ли принимать их в расчет ?

По оценке ИгрекФулл, это лучше, чем "плохое качество". Но хуже чем "неоднозначное качество".


:)

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5573
  • Страна: hr
  • Рейтинг +3060/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Компания Dante Labs
« Ответ #429 : 06 Октябрь 2019, 10:37:53 »
У меня вопрос к Владимиру.

Правильно ли понимаю, что сейчас при наличии нескольких результатов по одному тестируемому, просто выбирается лучший?

То есть, никакой объединённый файл не создаётся?

И не планируется?


Молчание было ему ответом.    :-\

Собственно и так ясно, что Биг Игрек 700 (если сравнивать продукты ФТДНА и Данте Лабз) - по качеству всего лучше.

Непрочитанные в нём, но хорошего качества в других тестах позиции, - не выставляются и не используются при расчёте возрастов. (Что, справедливости ради, даёт не очень большую погрешность, учитывая расплывчатость самого метода.)

Основное резюме: данные Лонг Рида загружать в ИгрекФулл смысла нет абсолютно никакого.
Михаил, действительно объединенный файл не создается.
Скрывается с дерева только Big Y более старой версии, при наличии Y700. Тестов из других лабораторий это не касается, хотя в планах выбирать и показывать только образцы с наибольшим покрытием combed.

Что касается лонгридов, то их также делают фуллгеномы. Если сравнивать их с лонгридами от Данте, то фуллгеномные лучше в разы, но справедливости ради хочу сказать, что видел только один лонгрид от Данте.
Как верно заметил MCB, наибольшая ценность лонгридов - возможность фазирования аутосом. Для игрека, с нашей точки зрения, они не лучше чем обычные WGS, а иногда хуже. Хотя по этому поводу мы не сошлись во мнении с FGC, они считают что лонгрид для игрека лучше, например в прочтении "темного"))) DYZ19. Но если смотреть по STR, то по нашему опыту лонгрид ничем не улучшает их чтения из bam файла...

Что касается сравнения WGS с Big Y700, то при равных характеристиках чтения, любой WGS лучше. Не помню какая сейчас длина чтения у Данте, но если 100 как раньше, то Y700 от FTDNA будет лучше с их длиной больше 150bp.

Оффлайн mdn

  • Сообщений: 263
  • Страна: fi
  • Рейтинг +142/-0
  • Y-ДНК: R-FGC56440
  • мтДНК: R1a1a1
Re: Компания Dante Labs
« Ответ #430 : 06 Октябрь 2019, 15:50:14 »
Со страницы yfull.com:
Цитировать
Технические требования: .BAM-файл; глубина покрытия минимум 15X; длина рида минимум 100bp
На сайте да, так сказано.
А на ISoGG wiki про них сказано: "Alignment BAM file, Coverage for full reports is min 25X, Read length min 100 bp. WGS 4x, 10x, etc. is also accepted"
Правда, подтверждающая ссылка идёт на закрытую группу с постом 2015 года (или даже уже несуществующую группу).

Добавлено позже: Вступил в ту группу, что нашёл, оригинального поста нет, в некоторых обсуждения ссылаются на ISoGG с тем же вопросом, и я так понял - даже при 0.4х они готовы попробовать mtDNA достать. :) Наверное всё-таки рискну.
« Последнее редактирование: 06 Октябрь 2019, 16:00:16 от mdn »

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 37082
  • Страна: ca
  • Рейтинг +3691/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #431 : 06 Октябрь 2019, 16:44:47 »
Владимир,

Спасибо за объяснение и информацию!

:)

Оффлайн Semargl

  • "El sueño de la razón produce monstruos" ©
  • Модератор
  • *****
  • Сообщений: 5573
  • Страна: hr
  • Рейтинг +3060/-5
  • www.semargl.me
    • www.semargl.me
  • Y-ДНК: R1a [CTS3402+]
  • мтДНК: U4a2g
Re: Компания Dante Labs
« Ответ #432 : 06 Октябрь 2019, 17:48:49 »
Со страницы yfull.com:
Цитировать
Технические требования: .BAM-файл; глубина покрытия минимум 15X; длина рида минимум 100bp
На сайте да, так сказано.
А на ISoGG wiki про них сказано: "Alignment BAM file, Coverage for full reports is min 25X, Read length min 100 bp. WGS 4x, 10x, etc. is also accepted"
Правда, подтверждающая ссылка идёт на закрытую группу с постом 2015 года (или даже уже несуществующую группу).

Добавлено позже: Вступил в ту группу, что нашёл, оригинального поста нет, в некоторых обсуждения ссылаются на ISoGG с тем же вопросом, и я так понял - даже при 0.4х они готовы попробовать mtDNA достать. :) Наверное всё-таки рискну.
WGS от Nebula имеет покрытие < 1X. Насколько я помню, там вроде покрытие 0.4X. Смотрел несколько таких сиквенсов. Игрек там никакой, но мито спокойно вытаскивал полное покрытие.
Статистика по WGS от Nebula
1   249250621   736542   225
2   243199373   754093   276
3   198022430   547836   150
4   191154276   613718   225
5   180915260   495041   123
6   171115067   477646   120
7   159138663   464625   159
8   146364022   422073   116
9   141213431   368062   82
10   135534747   638345   229
11   135006516   413673   133
12   133851895   376912   97
13   115169878   247179   59
14   107349540   255537   63
15   102531392   249783   70
16   90354753   375880   122
17   81195210   263683   105
18   78077248   229264   67
19   59128983   201452   75
20   63025520   204080   77
21   48129895   128067   88
22   51304566   123156   58
X   155270560   252948   67
Y   59373566   156267   223
MT   16569   9052   6

Третий столбец - количество маппированных ридов.
Так что есть очень большой шанс что в WGS с 4X Dante мито полностью покрыто. 

Оффлайн MCB

  • Сообщений: 69
  • Страна: 00
  • Рейтинг +39/-1
Re: Компания Dante Labs
« Ответ #433 : 07 Октябрь 2019, 18:25:26 »
ОК, вытащил бамфайл с Y & mtDNA с помощью WGSExtract, дал ссылку на Dropbox для Yfull, и получил емейл что они типа проверяют, годится ли файл. И молчок. Сколько ждать ответа и пришлют ли они его, если файл или линк не подойдет? Размер файла 2.29 GB и Dropbox утверждает, что переполнился (Your Dropbox is full. Upgrade now for up to 3 TB (3,000 GB) of space and sharing features.)

Тем временем пытаюсь создать файлы с аутосомными данными ("для всех снипов всех марок" как они рекомендуют, и специфически для фтДНК, чтобы проанализировать, как там обстоит дело с ошибками на их чипе). 14 часов уже фурычит, читает с внешнего драйва, а единственный новый созданный файл с данными вижу в поддиректории /temp размером в 56 мег temp_autosomes_raw.vcf.gz и такое ощущение, что туда ничего вообще не пишется ... ни дата модификации, ни размер файла не шеволятся. Советы?

Спасибо!

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 37082
  • Страна: ca
  • Рейтинг +3691/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #434 : 07 Октябрь 2019, 18:43:19 »
Я по аутосомам делал объединённый файл. Который включает чипы (в том числе и ранее использованные) 23эндМи, ФТДНА, Ансестри и, кажется Ливинг. Обо всём докладывался в этой ветке (кажется).

Всё сработало.

Загрузился куда можно. Основная надежда была на ГедМатч. На сравнение данных именно полногеномных. Не получилось у них. Показывают кучу стрёма. Любой полногеномный сэмпл по ГедМатч ближе реальных мамы-папы.    :(

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.


Rambler's Top100