АвторТема: Компания Nebula Genomics  (Прочитано 67825 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн KZev

  • Сообщений: 130
  • Страна: 00
  • Рейтинг +38/-0
Re: Компания Nebula Genomics
« Ответ #645 : 31 Май 2022, 16:41:38 »
А можно ли как-нибудь проверить целостность cram файла? Закачка прерывалась, вроде бы и удавалось восстанавливать, но мало-ли.
Попробовать проиндексировать. Если файл поврежден, то индексация прервется ошибкой.
samtools index my.cram

Спасибо!
WGSExtract использует samtools, так ведь? Вроде бы всё проиндексировалось, значит получилось скачать.

Оффлайн KZev

  • Сообщений: 130
  • Страна: 00
  • Рейтинг +38/-0
Re: Компания Nebula Genomics
« Ответ #646 : 31 Май 2022, 23:55:49 »
Не знаю подходящая ли тема, хотя CRAM небуловский:

Чтобы загрузить на MyHeritage и FTDNA как я понимаю в WGSExtract нужно получить microarray RAW и лучше всего для этого формат 23andme v3 так как там больше SNP, это написано в документации. При генерации выходит, что так как используется hg38, то результат будет не такой точный как если бы использовался hs37d5. Это можно как-то исправить, пересобрать или использовать hg38 и разница будет невелика если загрузить потом на MyHeritage/FTDNA?

Оффлайн Saken

  • Сообщений: 464
  • Страна: kz
  • Рейтинг +287/-0
  • YFull: YF079031
  • Y-ДНК: C3d [C-Z33001], R1a [R-Y62055], C3x*
  • мтДНК: D4g1* & F1b & M10a1
Re: Компания Nebula Genomics
« Ответ #647 : 01 Июнь 2022, 07:36:09 »
Не знаю подходящая ли тема, хотя CRAM небуловский:

Чтобы загрузить на MyHeritage и FTDNA как я понимаю в WGSExtract нужно получить microarray RAW и лучше всего для этого формат 23andme v3 так как там больше SNP, это написано в документации. При генерации выходит, что так как используется hg38, то результат будет не такой точный как если бы использовался hs37d5. Это можно как-то исправить, пересобрать или использовать hg38 и разница будет невелика если загрузить потом на MyHeritage/FTDNA?

Не парьтесь, эти файлы с WGS Extract с использованием hg38 имеют меньше no-calls чем файлы оригиналы! В этом Вы можете убедится сами, сделав проверку через программу DNA Kit Studio.

Вот ниже статистика с моего 23andme v3 файла от Nebula, всего 0.05% no-calls, в то время как мой оригинальный результат с лабы имеет 2.5% no-calls, в районе 24тыс. непрочитанных снипов. После таких сравнений, я даже не пытался делать конвертацию с hg38 на hg19 (37build) :)

> Format: 23andme
> Total SNPs: 959286
> Flipped SNPs: 0 (0.00%)
> Heterozygous SNPs: 276828 (28.86%)
> Homozygous SNPs: 677759 (70.65%)
> NoCalls SNPs: 487 (0.05%)
« Последнее редактирование: 01 Июнь 2022, 07:51:40 от Saken »

Оффлайн mladshij

  • Сообщений: 801
  • Страна: ru
  • Рейтинг +119/-0
  • Darth Vader
  • Y-ДНК: R1a-Z92 -> YP569 -> Y85137
  • мтДНК: H1
Re: Компания Nebula Genomics
« Ответ #648 : 01 Июнь 2022, 09:21:53 »
Есть такой интересный момент. Если читать отчёты Небулы, то там иногда можно увить что-то типа

rs191945075_A    NA

Казалось бы, это означает, что соответствующая позиция просто не прочиталась. Однако проверяем. Открываем браузер от Небулы (который IGV) и ищем в нём 11:46911760 (соответствует rs191945075). И видим там:

chr11:46,911,739
Total Count   42
A   0
C   13 (31%, 5+, 8- )
G   0
T   29 (69%, 20+, 9- )
N   0

То всё отлично прочиталось. Я написал в поддержку по этому вопросу. Ответ был неожиданным:

NA does not mean that we were not able to read it. It means we decided to not include it in the report. This can have various reasons. The main reason typically is that the reference dataset used to calculate percentiles includes low-coverage genomes for which this position was not decoded.

Пишу им: Thus this position has NA value for all of your reports, not just mine?  Am I correct?
Отвечают: Correct. It's included in the table because it's reported in the study the report is based on. We also likely to update the reference dataset in the future and use all those varaints that are currently NA.

В общем, такое вот неожиданное решение у  них там.

Оффлайн Val_Metov

  • Сообщений: 1243
  • Страна: ru
  • Рейтинг +913/-2
  • Y-ДНК: J-Y94477
Re: Компания Nebula Genomics
« Ответ #649 : 01 Июнь 2022, 09:51:45 »
Не знаю подходящая ли тема, хотя CRAM небуловский:

Чтобы загрузить на MyHeritage и FTDNA как я понимаю в WGSExtract нужно получить microarray RAW и лучше всего для этого формат 23andme v3 так как там больше SNP, это написано в документации. При генерации выходит, что так как используется hg38, то результат будет не такой точный как если бы использовался hs37d5. Это можно как-то исправить, пересобрать или использовать hg38 и разница будет невелика если загрузить потом на MyHeritage/FTDNA?
Смысла никакого нет в преобразовании в hs37d5. Я загружал в разных форматах, в разных версиях генома, никакого профита. Единственное чтобы я посоветовал, это использовать WGSE V4. Он в альфа версии, но там ряд ошибок в части генерации аутосом решены. Например на genotek получалось загрузить только FTDNA файлы. И количество совпаденцев было мизерным. Другим форматы долго обрабатываются, и результат нет. Все дело в мито и Y. WGSE V4 эти проблемы решило. Загружаю 23andme V5 на FTDNA, MH, Genotek и Gedmatch. В генотек появляется Гг, правда поле мито пустое почему-то, но не страшно.

Оффлайн nilogov

  • Сообщений: 1379
  • Страна: ru
  • Рейтинг +95/-6
  • философ антиязыка
  • Y-ДНК: R-BY55151
  • мтДНК: T2b-T152C!
Re: Компания Nebula Genomics
« Ответ #650 : 01 Июнь 2022, 11:00:28 »
А какую информацию помимо игрека и мито можно извлечь из CRAM-файла от Небулы?

Оффлайн nilogov

  • Сообщений: 1379
  • Страна: ru
  • Рейтинг +95/-6
  • философ антиязыка
  • Y-ДНК: R-BY55151
  • мтДНК: T2b-T152C!
Re: Компания Nebula Genomics
« Ответ #651 : 03 Июнь 2022, 10:23:29 »
Подскажите, а почему в браузере Небулы не отображается снип-мутация R-Y38374, хотя в списке она есть?


Оффлайн Saken

  • Сообщений: 464
  • Страна: kz
  • Рейтинг +287/-0
  • YFull: YF079031
  • Y-ДНК: C3d [C-Z33001], R1a [R-Y62055], C3x*
  • мтДНК: D4g1* & F1b & M10a1
Re: Компания Nebula Genomics
« Ответ #652 : 03 Июнь 2022, 10:26:35 »
Сегодня залогинился в личный кабинет. Заметил что FASTQ файлы недоступны к скачиванию! Их попросту нету, у всех так отображается?

Оффлайн Val_Metov

  • Сообщений: 1243
  • Страна: ru
  • Рейтинг +913/-2
  • Y-ДНК: J-Y94477
Re: Компания Nebula Genomics
« Ответ #653 : 03 Июнь 2022, 12:55:18 »
Сегодня залогинился в личный кабинет. Заметил что FASTQ файлы недоступны к скачиванию! Их попросту нету, у всех так отображается?
Да, уже пару недель так. Не приятно но не смертельно. Из cram вернуть fastq не проблема.

Оффлайн KZev

  • Сообщений: 130
  • Страна: 00
  • Рейтинг +38/-0
Re: Компания Nebula Genomics
« Ответ #654 : 04 Июнь 2022, 22:06:12 »
Так как на myheritage можно загружать бесплатно, решил попробовать загрузить один и тот же кит с Небулы (hg38) в разных версиях - 23andme v3 и 23andme v5. Использовался WGSExtract-Betav3_10Jul2021.

23andme v3
Происхождение - Прибалт (Литва и Польша) 58,4%; Балканец 20,9%; Восточноевропеец 18,3%; Выходец из Центральной Азии 2,4%
Совпадение с самим собой (23andme v5) - 99,1% (7023,7‎ cM)
Совпадение у сына и отца - 49,2% (3487 сМ)
Совпадение у племянника и дяди - 25,8% (1831,3 сМ)

23andme v5
Происхождение - Прибалт (Литва и Польша) 55,2%; Балканец 24,8%; Восточноевропеец 15,6%; Финн 2,2%; Выходец из Центральной Азии 2,2%
Совпадение с самим собой (23andme v3) - 99,1 % (7023,7‎ cM)
Совпадение у сына и отца - 49,1% (3479,1 сМ)
Совпадение у племянника и дяди - 25,4 % (1801 сМ)

Так всё же, что точнее/правильнее? Или ответа однозначного нет?
Потому что на FTDNA нужно платить чтобы загрузить, хотелось бы выбрать то, что точнее для поиска совпаденцев (хотя происхождение тоже интересно).
Можно бы конечно ещё попробовать WGSExtract 4 Alpha, как посоветовал уважаемый Val_Metov.

Кстати, обработка 23andme v5 была намного быстрее (2 дня), чем у 23andme v3 (4-5 дней).
« Последнее редактирование: 04 Июнь 2022, 22:19:48 от KZev »

Оффлайн Saken

  • Сообщений: 464
  • Страна: kz
  • Рейтинг +287/-0
  • YFull: YF079031
  • Y-ДНК: C3d [C-Z33001], R1a [R-Y62055], C3x*
  • мтДНК: D4g1* & F1b & M10a1
Re: Компания Nebula Genomics
« Ответ #655 : 05 Июнь 2022, 07:09:32 »
Так как на myheritage можно загружать бесплатно, решил попробовать загрузить один и тот же кит с Небулы (hg38) в разных версиях - 23andme v3 и 23andme v5. Использовался WGSExtract-Betav3_10Jul2021.

23andme v3
Происхождение - Прибалт (Литва и Польша) 58,4%; Балканец 20,9%; Восточноевропеец 18,3%; Выходец из Центральной Азии 2,4%
Совпадение с самим собой (23andme v5) - 99,1% (7023,7‎ cM)
Совпадение у сына и отца - 49,2% (3487 сМ)
Совпадение у племянника и дяди - 25,8% (1831,3 сМ)

23andme v5
Происхождение - Прибалт (Литва и Польша) 55,2%; Балканец 24,8%; Восточноевропеец 15,6%; Финн 2,2%; Выходец из Центральной Азии 2,2%
Совпадение с самим собой (23andme v3) - 99,1 % (7023,7‎ cM)
Совпадение у сына и отца - 49,1% (3479,1 сМ)
Совпадение у племянника и дяди - 25,4 % (1801 сМ)

Так всё же, что точнее/правильнее? Или ответа однозначного нет?
Потому что на FTDNA нужно платить чтобы загрузить, хотелось бы выбрать то, что точнее для поиска совпаденцев (хотя происхождение тоже интересно).
Можно бы конечно ещё попробовать WGSExtract 4 Alpha, как посоветовал уважаемый Val_Metov.

Кстати, обработка 23andme v5 была намного быстрее (2 дня), чем у 23andme v3 (4-5 дней).
Учтите перекрытие разных чипов между собой. Для совпаденцев сравнение лучше идет если чипы будут идентичными, соответственно хуже чем когда они разные. Поэтому лучше иметь загрузку разных чипов одновременно, то тогда можно будет сделать сравнение.
Старый чип 23andmeV3 в лице Illumina OmniExprex Plus в коммерческих лабах ушел со сцены, но с появлением доступных по цене полногеномных тестов не потерял актуальность и сейчас. На MyHeritage регулярно бывают акции по бесплатной разблокировке загрузок сторонних файлов, на FTDNA таких щедростей не видел.

Оффлайн G-Man

  • Сообщений: 682
  • Страна: ru
  • Рейтинг +652/-1
  • Y-ДНК: G-Z6700
Re: Компания Nebula Genomics
« Ответ #656 : 06 Июнь 2022, 16:55:54 »
Мой первый опыт с Небулой  (заказывали на скидках за $199):

8 марта.  Кит доставлен в Небулу

28 марта.  Пришло письмо об отправке на контроль качества

24 мая.  Тест готов

Данные в YFull оправляются прямо из личного кабинета в два клика. Скачивать для этого массивные файлы необязательно.

Статистика очень хорошая:



Оффлайн Val_Metov

  • Сообщений: 1243
  • Страна: ru
  • Рейтинг +913/-2
  • Y-ДНК: J-Y94477
Re: Компания Nebula Genomics
« Ответ #657 : 06 Июнь 2022, 19:32:58 »
Я кстати заметил, что качество зависит больше от партии, чем от процедуры забора. Отправленные одной посылкой обычно получают близкие значения по качеству. 65-70 Гб  cram в одной партии. В другой 45-50 итд. Покрытие y от 15 до 22+-.

Оффлайн KZev

  • Сообщений: 130
  • Страна: 00
  • Рейтинг +38/-0
Re: Компания Nebula Genomics
« Ответ #658 : 07 Июнь 2022, 11:23:01 »
Так как на myheritage можно загружать бесплатно, решил попробовать загрузить один и тот же кит с Небулы (hg38) в разных версиях - 23andme v3 и 23andme v5. Использовался WGSExtract-Betav3_10Jul2021.

23andme v3
Происхождение - Прибалт (Литва и Польша) 58,4%; Балканец 20,9%; Восточноевропеец 18,3%; Выходец из Центральной Азии 2,4%
Совпадение с самим собой (23andme v5) - 99,1% (7023,7‎ cM)
Совпадение у сына и отца - 49,2% (3487 сМ)
Совпадение у племянника и дяди - 25,8% (1831,3 сМ)

23andme v5
Происхождение - Прибалт (Литва и Польша) 55,2%; Балканец 24,8%; Восточноевропеец 15,6%; Финн 2,2%; Выходец из Центральной Азии 2,2%
Совпадение с самим собой (23andme v3) - 99,1 % (7023,7‎ cM)
Совпадение у сына и отца - 49,1% (3479,1 сМ)
Совпадение у племянника и дяди - 25,4 % (1801 сМ)

Так всё же, что точнее/правильнее? Или ответа однозначного нет?
Потому что на FTDNA нужно платить чтобы загрузить, хотелось бы выбрать то, что точнее для поиска совпаденцев (хотя происхождение тоже интересно).
Можно бы конечно ещё попробовать WGSExtract 4 Alpha, как посоветовал уважаемый Val_Metov.

Кстати, обработка 23andme v5 была намного быстрее (2 дня), чем у 23andme v3 (4-5 дней).
Учтите перекрытие разных чипов между собой. Для совпаденцев сравнение лучше идет если чипы будут идентичными, соответственно хуже чем когда они разные. Поэтому лучше иметь загрузку разных чипов одновременно, то тогда можно будет сделать сравнение.
Старый чип 23andmeV3 в лице Illumina OmniExprex Plus в коммерческих лабах ушел со сцены, но с появлением доступных по цене полногеномных тестов не потерял актуальность и сейчас. На MyHeritage регулярно бывают акции по бесплатной разблокировке загрузок сторонних файлов, на FTDNA таких щедростей не видел.

Загрузил 23andmeV5 так как исходя из таблицы на этой странице https://h600.org/wiki/Microarray+File+Formats#Supported_API_interface FTDNA, MyHeritage и 23andMe используют Illumina GSA. Кстати, для совпаденцев на FTDNA ничего и не надо платить, только если нужно происхождение.

Оффлайн nilogov

  • Сообщений: 1379
  • Страна: ru
  • Рейтинг +95/-6
  • философ антиязыка
  • Y-ДНК: R-BY55151
  • мтДНК: T2b-T152C!
Re: Компания Nebula Genomics
« Ответ #659 : 12 Июнь 2022, 08:45:34 »
Интересно, а все, кто проходит тестирование в Небуле на игрек, потом загружают результаты на YFull? Какова статистика? Знаю, что некоторые образцы с FTDNA не загружены на YFull... Можно ли утверждать, что база YFull самая обширная по игрек-образцам?

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.