АвторТема: Компания Nebula Genomics  (Прочитано 66874 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Saken

  • Сообщений: 464
  • Страна: kz
  • Рейтинг +287/-0
  • YFull: YF079031
  • Y-ДНК: C3d [C-Z33001], R1a [R-Y62055], C3x*
  • мтДНК: D4g1* & F1b & M10a1
Re: Компания Nebula Genomics
« Ответ #60 : 04 Ноябрь 2020, 07:02:58 »
Прогнал 2 FASTQ от Небулы через програмку FQSum_v6, получилось 106.84GBases. Вполне хороший результат ;)
Видел в группе FB некоторые умудрились получить свыше 120GBases :o



Пробный анализ на веб портале bam.iobio.io




Оффлайн Saken

  • Сообщений: 464
  • Страна: kz
  • Рейтинг +287/-0
  • YFull: YF079031
  • Y-ДНК: C3d [C-Z33001], R1a [R-Y62055], C3x*
  • мтДНК: D4g1* & F1b & M10a1
Re: Компания Nebula Genomics
« Ответ #61 : 04 Ноябрь 2020, 16:55:16 »
Наконец то сделал конвертацию своего CRAM файла в BAM. На Core i7 заняло в районе 1 часа.

Ниже статистика WGSExtract. По совету форумчан с темы Данте Лабс сделал 2 полоскания с Listerine c часовым интервалом, + чистка зубов. Видимо это способствовала 99.74% mapped ;D Для oral microbiome оставил 0.24Гигабейзов ::)

« Последнее редактирование: 08 Ноябрь 2020, 15:59:05 от Saken »

Оффлайн Val_Metov

  • Сообщений: 1242
  • Страна: ru
  • Рейтинг +913/-2
  • Y-ДНК: J-Y94477
Re: Компания Nebula Genomics
« Ответ #62 : 04 Ноябрь 2020, 18:17:31 »
Наконец то сделал конвертацию своего CRAM файла в BAM. На Core i7 заняло в районе 1 часа.

Ниже статистика WGSExtract. По совету форумчан с темы Данте Лабс сделал 2 полоскания с Listerine c часовым интервалом, + чистка зубов. Видимо это способствовала 99.74% mapped ;D Для oral microbiome оставил 0.24Гигабейзов ::)


А можно ссылку, тему по Данте изучаю, но страниц много, пока не видел такое сообщение.

Оффлайн Saken

  • Сообщений: 464
  • Страна: kz
  • Рейтинг +287/-0
  • YFull: YF079031
  • Y-ДНК: C3d [C-Z33001], R1a [R-Y62055], C3x*
  • мтДНК: D4g1* & F1b & M10a1
Re: Компания Nebula Genomics
« Ответ #63 : 04 Ноябрь 2020, 19:28:07 »
Наконец то сделал конвертацию своего CRAM файла в BAM. На Core i7 заняло в районе 1 часа.

Ниже статистика WGSExtract. По совету форумчан с темы Данте Лабс сделал 2 полоскания с Listerine c часовым интервалом, + чистка зубов. Видимо это способствовала 99.74% mapped ;D Для oral microbiome оставил 0.24Гигабейзов ::)


А можно ссылку, тему по Данте изучаю, но страниц много, пока не видел такое сообщение.

Нашел эти сообщения с Данте топика.

А откуда такие цифры - тест через два часа, чистить и полоскать зубы?
В их инструкции стандартное пожелание - не пить не есть не курить не жевать что попало 30мин до забора.

Полощу Листерином на всякий случай (мало ли какая крупная бактерия попадется  ;D), а жду 2 часа, во-первых, т.к. у меня и так слюноотделение ни о чем, а после чистки зубов оно еще больше ослабевает и восстанавливается только через час, а во-вторых, чтобы остатки Листерина успели уйти в желудок и не могли сделать невозможным извлечение ДНК :)

По поводу подготовки к забору слюны.

Томас Кран (YSEQ) рекомендует перед этим "насладиться бокалом хорошего односолодового виски":
Цитировать
Enjoy a good glass of single malt whisky before you spit. This will make you relaxed and kill all bugs.
Alcohol actually preserves DNA very well and dehydrates the cheek cells. They crumple together and are well protected from mechanical shearing. However avoid sugar in your drink. this will be easily digested by bacteria and will enhance their growth.

Google Translate:
Наслаждайтесь бокалом хорошего односолодового виски, прежде чем выплевывать. Это заставит вас расслабиться и убить всех ошибок.
Алкоголь на самом деле очень хорошо сохраняет ДНК и обезвоживает клетки щеки. Они сминаются и хорошо защищены от механического сдвига. Однако избегайте сахара в вашем напитке. это будет легко усвоено бактериями и увеличит их рост.

Я думаю, стоит просто прополоскать рот водкой, перед этим хорошо почистив зубы. Дольше рекомендованного получаса после подготовки полости рта выжидать не стоит, чтобы бактерии не успели размножиться.

А откуда такие цифры - тест через два часа, чистить и полоскать зубы?
В их инструкции стандартное пожелание - не пить не есть не курить не жевать что попало 30мин до забора.
Данте продают 30х (90 миллиардов пар баз) данных секвенсора, а не уже после выравнивания. Так что результат FASTQ может быть 30х, а BAM - 15x и меньше. 15х WGS означает, что Y будет всего лишь 7х.
Разница - как раз всякие бактерии. Это в общем-то интересно, в группе фейсбука народ массово рассматривает, что у них во рту, но для лечебных/генеалогических целей обидно. :) И время, и деньги.

Вроде бы иногда при совсем плохих результатах они делают ещё попытку, но мне вот при 54% отказали. :)

Поэтому и пытаются люди очистить рот. :)

Бонус такого подхода - вроде бы собак массово на Данте тестируют, не знаю, правда или нет.

Оффлайн Val_Metov

  • Сообщений: 1242
  • Страна: ru
  • Рейтинг +913/-2
  • Y-ДНК: J-Y94477
Re: Компания Nebula Genomics
« Ответ #64 : 04 Ноябрь 2020, 19:33:58 »
Спасибо!)
А я подумал что "полоскание 2 раза" это такой жаргон, типа программой два раза пройтись по raw файлам))

Оффлайн Saken

  • Сообщений: 464
  • Страна: kz
  • Рейтинг +287/-0
  • YFull: YF079031
  • Y-ДНК: C3d [C-Z33001], R1a [R-Y62055], C3x*
  • мтДНК: D4g1* & F1b & M10a1
Re: Компания Nebula Genomics
« Ответ #65 : 04 Ноябрь 2020, 19:38:54 »
Валера (Val_Metov), хотел спросить, Вы на galaxy вебсайт загружали свои файлы? Там генерацию bam файлов с FASTQ не пробывали сделать?

Вчера загрузил на https://usegalaxy.org/ все данные с Nebula, и запустил по инструкции юзера TK (детали ниже) с разницей map medium reads (>100 bp). Так вот, этот бам весит 66 гигов, а бам с конвертаций с CRAM файла свыше 75гигов весит. Вот думаю в чем разница между ними?


Файл BAM готовы предоставить только на жестком диске (за 59 евро), иначе предлагают скомпилировать его самостоятельно (после получения ссылок на FASTQ-файлы) при помощи приложения EvE Premium на Sequencing.com (19,99 $).

Если кто соберется сам компилировать BAM из FastQ, то на основании имеющегося у меня образца Dante Labs из числа недавно полученных, для генеалогических целей могу порекомендовать следующее.
Внимание! Образцы из Dante Labs могут сильно отличаться - у меня нет общей статистики по ним, соответственно, все рекомендации могут быть использованы только на свой страх и риск.

Для сборки, похоже, лучше всего использовать референс GCA_000001405.15_GRCh38_no_alt_plus_hs38d1_analysis_set.fna.gz, который содержит GRCh38 без альтернативных регионов, но содержит последовательности-приманки для удаления мусорных кусков ДНК (ну типа от загрязнений вирусами и пр). Я попробовал почти 10 разных референсов Hg19 и Hg38 - и у данного получалось наиболее простое выравнивание, без лишних артефактов.

При этом, для выравнивания можно использовать либо бесплатный https://usegalaxy.eu/ (к тому же, мне он кажется более надежным, чем американский sequencing.com). Кратко схема действий для него:
1. Зарегистрироваться (да, кстати - лучше использовать браузер Google Chrome)
2. Загрузить свои FastQ файлы, используя какой-нибудь FTP клиент (там есть инструкция), и импортировать файлы после загрузки по FTP.
3. Загрузить референсную последовательность, указанную выше.
Внимание - после всей загрузки проверить, что среди hidden файлов нет загруженных в распакованном виде! Место на usegalaxy ограниченно 250 Гб, поэтому распакованные файлы могут его тут же "сожрать". Если есть такие hidden распакованные файлы - их можно и нужно безболезненно удалить.
4. Выполнить выравнивание (сформировать BAM) используя Map with BWA - map short reads (< 100 bp) against reference genome (Galaxy Version 0.7.17.4) и выбрав загруженную ранее референсную последовательность и оба FastQ файла (фактически, выполнится bwa sampe, с дальнейшей сортировкой и индексированием). Вполне можно всё делать с дефолтными настройками!
5. По получении результата загрузить к себе BAM файл, и обработать его перед передачей в YFull согласно инструкции, которая проскакивала ранее.

Оффлайн Saken

  • Сообщений: 464
  • Страна: kz
  • Рейтинг +287/-0
  • YFull: YF079031
  • Y-ДНК: C3d [C-Z33001], R1a [R-Y62055], C3x*
  • мтДНК: D4g1* & F1b & M10a1
Re: Компания Nebula Genomics
« Ответ #66 : 04 Ноябрь 2020, 19:41:11 »
 
А я подумал что "полоскание 2 раза" это такой жаргон, типа программой два раза пройтись по raw файлам))
;) 8)

Оффлайн Val_Metov

  • Сообщений: 1242
  • Страна: ru
  • Рейтинг +913/-2
  • Y-ДНК: J-Y94477
Re: Компания Nebula Genomics
« Ответ #67 : 04 Ноябрь 2020, 22:14:49 »
Валера (Val_Metov), хотел спросить, Вы на galaxy вебсайт загружали свои файлы? Там генерацию bam файлов с FASTQ не пробывали сделать?

Вчера загрузил на https://usegalaxy.org/ все данные с Nebula, и запустил по инструкции юзера TK (детали ниже) с разницей map medium reads (>100 bp). Так вот, этот бам весит 66 гигов, а бам с конвертаций с CRAM файла свыше 75гигов весит. Вот думаю в чем разница между ними?

Unmaped reads не сравнивал? Может в меньшем их нет?

Я как раз по этой инструкции локально делаю. В galaxy загрузил, но пока ничего не получилось. Я пытался список адапторов указать, но что-то не проходит. Попробую по инструкции.
Мне интересно сравнить приватные снипы с одним прочтением, которые выявили в Yfull с самостоятельно собранным вариантом.

Кстати, если у вас стоит вопрос обновления ПК, в том числе для работы с NGS файлами, рекомендую присмотреться к очень производительным, по соотношению цена качество сборкам на основе серверных процессоров intel, которыми барыжат китайцы. Самый актуальный вариант 12 ядерный 24 поточный процессор Xeon e5 2678 v3. Все ядра работают на частоте 3,3 ггц. С учетом того, что тот же samtools хорошо задействует все потоки, то это хороший выбор. Большой плюс этого проца - поддержка ddr3 в 4х (даже в 8 есть) канальном режиме. Низкая частота памяти но в 4х каналах дает хорошие результаты. Материнские платы от 60$.
Еще более радикальное решение 2хпроцессорные платы и 2 E5 2678. 48 ядер для таких сложных расчетов будут не лишними. 64 гб DDR3, а можно и 128-256!
« Последнее редактирование: 04 Ноябрь 2020, 22:30:41 от Val_Metov »

Оффлайн Saken

  • Сообщений: 464
  • Страна: kz
  • Рейтинг +287/-0
  • YFull: YF079031
  • Y-ДНК: C3d [C-Z33001], R1a [R-Y62055], C3x*
  • мтДНК: D4g1* & F1b & M10a1
Re: Компания Nebula Genomics
« Ответ #68 : 05 Ноябрь 2020, 08:09:18 »

Unmaped reads не сравнивал? Может в меньшем их нет?


Сравнил, они идентичны.

Эти unmapped либо мое днк невходящее в 38 реферанс и/или бактерии, вирусы.
 

Оффлайн Val_Metov

  • Сообщений: 1242
  • Страна: ru
  • Рейтинг +913/-2
  • Y-ДНК: J-Y94477
Re: Компания Nebula Genomics
« Ответ #69 : 06 Ноябрь 2020, 19:58:51 »
Сгенерировал по инструкции выше Bam файл из Fastq. В исходном Cram от Nebula использован вариант референса Yoruba.
Первая цифра это самосборный. Galaxy 3й день считает, посмотрим их результат тоже.
Map seg read            - 3 319 721 -    3 767 690   
Unmap Seg Read     - 92438        -    2938
Mapped Gbases       - 0.5             -    0.56
Acg Read Depth       - 8x              -    9x

Из найденных Yfull 6 приватных снипов, по которым было всего одно прочтение в 4х случаях в новом варианте пусто. Что скорее всего больше похоже на правду.
По неоднозначным снипам тоже похожая ситуация. Примерно в половине случаев (около 20 из 40+-) мутация пропала в новой версии. В целом шумов намного меньше, визуально.
Интересно также, что по снипам верхнего уровня в некоторых случая на 20-25% больше прочтений в самосборной версии.
« Последнее редактирование: 06 Ноябрь 2020, 20:16:07 от Val_Metov »

Оффлайн Saken

  • Сообщений: 464
  • Страна: kz
  • Рейтинг +287/-0
  • YFull: YF079031
  • Y-ДНК: C3d [C-Z33001], R1a [R-Y62055], C3x*
  • мтДНК: D4g1* & F1b & M10a1
Re: Компания Nebula Genomics
« Ответ #70 : 08 Ноябрь 2020, 15:58:02 »
Статистика с сайта qual.iobio.io выдает следующие данные по Bam файлу сгенерированного на https://usegalaxy.org/ с FASTQ с помощью BWA-MEM:




Оффлайн Val_Metov

  • Сообщений: 1242
  • Страна: ru
  • Рейтинг +913/-2
  • Y-ДНК: J-Y94477
Re: Компания Nebula Genomics
« Ответ #71 : 09 Ноябрь 2020, 17:31:47 »
В группе по Nebula в FB посоветовали BWA mem использовать. Команда:

bwa mem -t 8 -K 100000000 -Y -R "@RG\tID:1\tSM:R38\tLB:1\tPL:ILLUMINA" /home/val/GRCh38nap1.fna YourFASTQ_1.fq.gz YourFASTQ_2.fq.gz | samblaster | samtools sort -@8 --no-PG -o /R38.bam && samtools index -@8 R38.bam

Все сработало всего одной командой. Только референс нужно предварительно распаковать и проиндексировать. И скорость выполнения быстрее. + места меньше потребовалось.

http://prntscr.com/vg5npr

Оффлайн Alex.msc

  • Сообщений: 15
  • Страна: ru
  • Рейтинг +4/-0
Re: Компания Nebula Genomics
« Ответ #72 : 11 Ноябрь 2020, 19:38:18 »
Добрый! Поделитесь актуальным промокодом на скидку  на Nebula, если есть таковые. Заранее благодарен!

Оффлайн Val_Metov

  • Сообщений: 1242
  • Страна: ru
  • Рейтинг +913/-2
  • Y-ДНК: J-Y94477
Re: Компания Nebula Genomics
« Ответ #73 : 11 Ноябрь 2020, 20:41:55 »
Добрый! Поделитесь актуальным промокодом на скидку  на Nebula, если есть таковые. Заранее благодарен!
MYTRUEANCESTRY10

Оффлайн Alex.msc

  • Сообщений: 15
  • Страна: ru
  • Рейтинг +4/-0
Re: Компания Nebula Genomics
« Ответ #74 : 13 Ноябрь 2020, 11:32:09 »
Спасибо, это на 10$ ?

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.