АвторТема: Компания Dante Labs  (Прочитано 169049 раз)

0 Пользователей и 5 Гостей просматривают эту тему.

Оффлайн AntKeeper

  • Сообщений: 12
  • Страна: ua
  • Рейтинг +2/-0
Re: Компания Dante Labs
« Ответ #1095 : 12 Февраль 2020, 21:54:59 »

Из командной строки в том каталоге, где лежит распакованный VCF, сделайте:
findstr /C:"##" /C:"MT" filename.filtered.snp.vcf > mt.vcf
Это создаст именно нужный файл, который можно будет залить по той ссылке (Называется mt.vcf)
Чуть-чуть поправлю:
findstr /C:"#" /C:"MT" filename.filtered.snp.vcf > mt.vcfА то не копировал строку формата, в начале которой одна решётка. Так сработало на https://haplogrep.i-med.ac.at/app/index.html

Оффлайн NathanS

  • Сообщений: 1277
  • Страна: 00
  • Рейтинг +1202/-2
Re: Компания Dante Labs
« Ответ #1096 : 13 Февраль 2020, 00:00:34 »
Спасибо!    :)

Прочитал, что отработка (правда суммарная, зато на современном железе, а не на музейном лэптопе возрастом в 10 лет) может занять 5 дней.

Сделал бэкап Генеалогической Базы. Запустился. Пока ждать собрался неделю.

У меня Intel i7-6700K (4GHz 4 ядра 8 веток, использую 7 для выравнивания), почти 5 лет, памяти 64 ГБ, но сами данные записаны на RAID1 на старых жестких дисках, да и со вращением 5400 об/мин. Думаю, что основное время занимает чтение и запись на диски. Выравнивание у меня занимает около 3 суток, извлечение игрека и мито быстро плюс новое выравнивание несколько часов. Но у меня свои параметры для первичного и вторичного выравнивания, со стандартными параметрами должно идти быстрее.

По WGSExtract не могу много сказать - сделан он под Windows, а я уже давно перешел на Linux. Как rmk сказал, позиции в референсах не совпадают и может что-то потеряться и лучше иметь оба файла пока.

PS Хочу обновить компьютер, но вероятно придется обновлять часть длительного хранения данных, покупать медленные, но объемные диски. Меня устраивает собственная медленная обработка данных, а приоритетом ставлю надежное хранение - ожидаю три теста и места для них на моих 9 ТБ нет.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #1097 : 13 Февраль 2020, 00:24:20 »
Вау!
Что тут скажешь.

:)

Оффлайн Farharaji

  • Сообщений: 984
  • Страна: aq
  • Рейтинг +170/-7
    • Ytree YF71444
  • Y-ДНК: R1b-DF98+FT22607+BY20662+
  • мтДНК: U5b1e1*
Re: Компания Dante Labs
« Ответ #1098 : 13 Февраль 2020, 11:43:02 »


Загрузить файл - сверху слева, "Open". Попробуйте вначале залить ваш filtered.snp.vcf.gz файл целиком, вдруг пройдёт.
Если нет - распакуйте его (должен без ошибок распаковываться, он просто очень большой, может больше гигабайта быть), потому что там мито почти в конце.
Из командной строки в том каталоге, где лежит распакованный VCF, сделайте:
findstr /C:"##" /C:"MT" filename.filtered.snp.vcf > mt.vcf
Это создаст именно нужный файл, который можно будет залить по той ссылке (Называется mt.vcf)
Ой я в компьютерах не понимаю видимо. Так и не понял толком и ничего не получилось. Просто в ручную нашел МТ днк, вроде выложил в предиктор и...говорит ошибка, только 1 колонка, не с чем сравнивать. Видимо нужно результаты на какие то колонки разбить или что? В общем ну...просто выписал маркеры в тетрадку(ну и на вордпад в ноут) Там всего то МТ днк 42 маркера вышло(удивительно мало из 16.5 тысяч или это где-то еще есть МТ днк куски, я только концовку посмотрел как мне и говорили и то еле нашел, в ручную там паревно искать)
Короче, а есть предиктор как у игрека просто сам вбиваешь маркеры и все? Я вот могу свои вбить и посмотреть

Оффлайн AntKeeper

  • Сообщений: 12
  • Страна: ua
  • Рейтинг +2/-0
Re: Компания Dante Labs
« Ответ #1099 : 13 Февраль 2020, 22:55:15 »
Просто в ручную нашел МТ днк, вроде выложил в предиктор и...говорит ошибка, только 1 колонка, не с чем сравнивать. Видимо нужно результаты на какие то колонки разбить или что?
Маркеров там действительно немного. Можно и вручную скопировать, но надо сохранить символы табуляции вместо пробелов везде. Долго возился, пока понял. И в итоговом файле должны быть все строки заголовков с "##" и "#" в начале, ну и все с "MT". Эта команда сама всё делает - только имя файла правильно указать. Про предиктор не знаю. А у игрека какой предиктор можно использовать?

Оффлайн Farharaji

  • Сообщений: 984
  • Страна: aq
  • Рейтинг +170/-7
    • Ytree YF71444
  • Y-ДНК: R1b-DF98+FT22607+BY20662+
  • мтДНК: U5b1e1*
Re: Компания Dante Labs
« Ответ #1100 : 13 Февраль 2020, 23:05:15 »
Просто в ручную нашел МТ днк, вроде выложил в предиктор и...говорит ошибка, только 1 колонка, не с чем сравнивать. Видимо нужно результаты на какие то колонки разбить или что?
Маркеров там действительно немного. Можно и вручную скопировать, но надо сохранить символы табуляции вместо пробелов везде. Долго возился, пока понял. И в итоговом файле должны быть все строки заголовков с "##" и "#" в начале, ну и все с "MT". Эта команда сама всё делает - только имя файла правильно указать. Про предиктор не знаю. А у игрека какой предиктор можно использовать?
Вот сказали уже мне сегодня про предиктор(МТ) https://dna.jameslick.com/mthap 
А по игреку их несколько, но мне очень импонирует Nevgen predictor, хорошая игрушка. Но там просто цифры вбивать STR если знаешь из линейки ФТДНА. А которые файлы грузить и извлекать я такие не знаю. Но вообще игрик предикторы даже гуглятся хорошо(y-хромосома эт такой мейнстрим уже)

Оффлайн Farharaji

  • Сообщений: 984
  • Страна: aq
  • Рейтинг +170/-7
    • Ytree YF71444
  • Y-ДНК: R1b-DF98+FT22607+BY20662+
  • мтДНК: U5b1e1*
Re: Компания Dante Labs
« Ответ #1101 : 15 Февраль 2020, 00:21:16 »
Наконец только скачал файлы. И года недели не прошло.. Проверил на гигабазы, ну 90 прошло и почти 100...Наверное вполне удобоваримый результат 98.89GBases
Fastq R2 49.44GBases
Fastq R1 49.45GBases
В общем, Данте в целом с задачей справилась. И в итоге и сроки  тоже выдержаны и гигабазы тоже :)

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #1102 : 15 Февраль 2020, 09:25:36 »
Неполных 70 часов генерирую сборный аутосомный файл.

Похоже, основная задержка из-за слабой памяти (всего лишь 8 ГБ). Как следствие, идёт докачка на диск.    :-\



Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #1103 : 15 Февраль 2020, 23:04:47 »
После 80 часов отработки - остановил программу.    :-\

Не уверен, что WGS Extractor вообще работает с long reads данными.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #1104 : 15 Февраль 2020, 23:05:55 »
На том же самом компьютере, с той же самой программой, WGS данные свёрстывало в аутосомный файл где-то часа за 3-4.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #1105 : 15 Февраль 2020, 23:21:58 »
Написал письмо непосредственно в ГедМатч.
Может насоветуют чего.

::)

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #1106 : 16 Февраль 2020, 03:14:30 »
Спрошу с наглой простотой (той самой, что хуже воровства).      :-X

А не посмотрите, пожалуйста, мой файл? (Я бы Вам отправил имя пользователя и пароль в YSEQ.)    ::)


У Вас и техника, и опыт.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Компания Dante Labs
« Ответ #1107 : 16 Февраль 2020, 05:52:50 »
К сожалению, сейчас у меня нет для этого технических возможностей. Даже чтобы просто в буквальном смысле его посмотреть, то есть скачать.

Извините. Как-то много попросил.     :-X

Оффлайн mdn

  • Сообщений: 263
  • Страна: fi
  • Рейтинг +142/-0
  • Y-ДНК: R-FGC56440
  • мтДНК: R1a1a1
Re: Компания Dante Labs
« Ответ #1108 : 18 Февраль 2020, 17:01:47 »
Создатель https://ydna-warehouse.org/ анонсировал своё будущее Y дерево, пока ранняя альфа выглядит так:


Пока думают запустить бесплатно для постящих, для этого надо сильно убыстрить алгоритмы им.
Если запустят - может будет удобно.
(вообще у меня лично мнение об этом сайте довольно отрицательное, но может дерево они осилят всё-таки)

Оффлайн Arthwr

  • Сообщений: 1331
  • Страна: ua
  • Рейтинг +787/-6
    • http://r1b-pf7562.blogspot.com/
  • Y-ДНК: R1b-PF7563
  • мтДНК: K1c1e
Re: Компания Dante Labs
« Ответ #1109 : 19 Февраль 2020, 11:58:09 »
Статистика по моему WGS от Данте, выравненному на hg38 в YSEQ:






 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.