АвторТема: Генотек  (Прочитано 89869 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Онлайн Srkz

  • Сообщений: 8629
  • Страна: ru
  • Рейтинг +4983/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Re: Генотек
« Ответ #570 : 07 Февраль 2023, 15:52:25 »
Дубли данных, ошибки в возрасте/поле или пропущенные данные по полу/возрасту и некоторые другие факторы (разные модели микрочипов для анализа, повторные загрузки разных файлов одного и того же человека) могут приводить к осложнениям при восстановлении родословной и корректировке правильных связей на неправильные. Поэтому рекомендуется указывать в анкете настоящий пол и возраст."
Мда, переумничали они.

Оффлайн wbull

  • Сообщений: 444
  • Страна: ru
  • Рейтинг +53/-0
    • Rickman Surname Project
  • Y-ДНК: E1b1b1a1, Cluster : E-L618* , Geno 2.0: E-CTC10912
  • мтДНК: U5a1g
Re: Генотек
« Ответ #571 : 08 Февраль 2023, 13:48:27 »
Генотек выдал файл в формате vcf размером в 107 Гб.
А это для какого теста? Насколько я понимаю у них чип на 650000 снипов. Вроде результаты не должны так много весить.

Оффлайн Lesla

  • Главный модератор
  • *****
  • Сообщений: 9691
  • Страна: ru
  • Рейтинг +2993/-10
  • FTDNA: 154400 (Big Y - 283049)
  • Y-ДНК: R1a-YP682 (VK06+)
Re: Генотек
« Ответ #572 : 08 Февраль 2023, 13:53:02 »
Генотек выдал файл в формате vcf размером в 107 Гб.
А это для какого теста? Насколько я понимаю у них чип на 650000 снипов. Вроде результаты не должны так много весить.
Это у них новая машинка. Делает Полный Геном.
Пока недоволен - геморрой, отсутствие маркеров и цена перевешивает все остальное.

Оффлайн wbull

  • Сообщений: 444
  • Страна: ru
  • Рейтинг +53/-0
    • Rickman Surname Project
  • Y-ДНК: E1b1b1a1, Cluster : E-L618* , Geno 2.0: E-CTC10912
  • мтДНК: U5a1g
Re: Генотек
« Ответ #573 : 08 Февраль 2023, 13:54:28 »
Дубли данных, ошибки в возрасте/поле или пропущенные данные по полу/возрасту и некоторые другие факторы (разные модели микрочипов для анализа, повторные загрузки разных файлов одного и того же человека) могут приводить к осложнениям при восстановлении родословной и корректировке правильных связей на неправильные. Поэтому рекомендуется указывать в анкете настоящий пол и возраст."
Мда, переумничали они.
Как программисту мне идея с алгоритмом строящим семейные деревья нравится. Но уж от очень многих факторов зависит точность.

Онлайн Srkz

  • Сообщений: 8629
  • Страна: ru
  • Рейтинг +4983/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Re: Генотек
« Ответ #574 : 08 Февраль 2023, 13:57:55 »
Как программисту мне идея с алгоритмом строящим семейные деревья нравится. Но уж от очень многих факторов зависит точность.
Я дмаю, что если при отсутствии информации о возрасте алгоритм выдаёт заведомо ошибочную информацию, это явный непрофессионализм - не вставили проверку на корректность исходных данных.

Оффлайн Val_Metov

  • Сообщений: 1262
  • Страна: ru
  • Рейтинг +937/-2
  • Y-ДНК: J-Y94477
Re: Генотек
« Ответ #575 : 08 Февраль 2023, 13:59:27 »
Как программисту мне идея с алгоритмом строящим семейные деревья нравится. Но уж от очень многих факторов зависит точность.
Я дмаю, что если при отсутствии информации о возрасте алгоритм выдаёт заведомо ошибочную информацию, это явный непрофессионализм - не вставили проверку на корректность исходных данных.
Думаю важнее всего их последующая реакция.

Онлайн Srkz

  • Сообщений: 8629
  • Страна: ru
  • Рейтинг +4983/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Re: Генотек
« Ответ #576 : 08 Февраль 2023, 14:10:12 »
Думаю важнее всего их последующая реакция.
Исправят, наверное  :) Вопрос только, когда :) В целом-то видно, что развитие у них идёт.

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1390/-7
  • Ultimate Matriarchy
Re: Генотек
« Ответ #577 : 08 Февраль 2023, 17:57:57 »
Генотек выдал файл в формате vcf размером в 107 Гб. FASTQ пока не могу от них добиться.
Я подозреваю, что в генотековский vcf они могли аутосомные снипы запаковать + снипы по здоровью. Или это слишком жирный файл для этого и там могут быть и снипы из Y-днк?
Как это проверить?

снипы все могут быть, но метаинформации там явно минимум
потому что подробный несжатый пайлап VCF (со всем хозяйством - снипами и инделами, числом чтений, минимумом статистик итп) трудно сделать легче чем 1гб текста на 10 мегабаз днк. То есть умножать этот 1 гб для всего генома надо на 300, а не на 100, как у вас.

При некоторых ухищрениях, конечно, туда много чего можно положить, ведь VCF формат расширяемый. То есть авторским способом можно в 100гб текст и инделы запихать.

SAM (то есть BAM в тексте) ессно будет еще больше.

Оффлайн Georg

  • Сообщений: 781
  • Страна: ru
  • Рейтинг +252/-5
  • Племянник vk511(Y),vk160(аДНК)
  • Y-ДНК: I1a1b1a1e2 (Y353312)
  • мтДНК: Я U5b2a, дети T1a1ct и H5b*
Re: Генотек
« Ответ #578 : 09 Февраль 2023, 16:02:30 »
а есть тут представители Генотека?
Можно ли попросить реализовать фильтры по Y гаплогруппе?
И рассмотреть возможность показа младшего найденного снипа в профиле

Оффлайн Val_Metov

  • Сообщений: 1262
  • Страна: ru
  • Рейтинг +937/-2
  • Y-ДНК: J-Y94477
Re: Генотек
« Ответ #579 : 09 Февраль 2023, 16:43:32 »
а есть тут представители Генотека?
Можно ли попросить реализовать фильтры по Y гаплогруппе?
И рассмотреть возможность показа младшего найденного снипа в профиле
https://t.me/genotek_genealogy


Онлайн Srkz

  • Сообщений: 8629
  • Страна: ru
  • Рейтинг +4983/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Re: Генотек
« Ответ #580 : 09 Февраль 2023, 16:52:48 »
а есть тут представители Генотека?
Можно ли попросить реализовать фильтры по Y гаплогруппе?
И рассмотреть возможность показа младшего найденного снипа в профиле
Какой смысл фильтровать по гаплогруппам, если там только массовые снипы.

Оффлайн Georg

  • Сообщений: 781
  • Страна: ru
  • Рейтинг +252/-5
  • Племянник vk511(Y),vk160(аДНК)
  • Y-ДНК: I1a1b1a1e2 (Y353312)
  • мтДНК: Я U5b2a, дети T1a1ct и H5b*
Re: Генотек
« Ответ #581 : 09 Февраль 2023, 17:06:41 »
а есть тут представители Генотека?
Можно ли попросить реализовать фильтры по Y гаплогруппе?
И рассмотреть возможность показа младшего найденного снипа в профиле
Какой смысл фильтровать по гаплогруппам, если там только массовые снипы.
чтобы из своих родственников отобрать I1 и приоритетно прорабатывать именно их.
а снипы - чтобы знать насколько недотипированы те же I1

Оффлайн Tora_sama

  • Сообщений: 829
  • Страна: ru
  • Рейтинг +398/-0
  • Y-ДНК: E-Y184711
  • мтДНК: H1b2g
Re: Генотек
« Ответ #582 : 09 Февраль 2023, 22:51:41 »
Я предлагал Ракитько ещё год назад, добавить возможность указывать свои снипы из их же базы, для упрощения поиска, если ты загружаешься из той же фтдна как пример. Толку 0 в общем.

Оффлайн Lesla

  • Главный модератор
  • *****
  • Сообщений: 9691
  • Страна: ru
  • Рейтинг +2993/-10
  • FTDNA: 154400 (Big Y - 283049)
  • Y-ДНК: R1a-YP682 (VK06+)
Re: Генотек
« Ответ #583 : 10 Февраль 2023, 13:48:08 »
Генотек выдал файл в формате vcf размером в 107 Гб. FASTQ пока не могу от них добиться.
Я подозреваю, что в генотековский vcf они могли аутосомные снипы запаковать + снипы по здоровью. Или это слишком жирный файл для этого и там могут быть и снипы из Y-днк?
Как это проверить?

снипы все могут быть, но метаинформации там явно минимум
потому что подробный несжатый пайлап VCF (со всем хозяйством - снипами и инделами, числом чтений, минимумом статистик итп) трудно сделать легче чем 1гб текста на 10 мегабаз днк. То есть умножать этот 1 гб для всего генома надо на 300, а не на 100, как у вас.

При некоторых ухищрениях, конечно, туда много чего можно положить, ведь VCF формат расширяемый. То есть авторским способом можно в 100гб текст и инделы запихать.

SAM (то есть BAM в тексте) ессно будет еще больше.
Переговорил с Александром Ракитько. Он сказал, что у них есть возможность выдавать в BAM результаты, только это надо через поддержку, в ручном режиме, запрашивать. Объяснил тем, что их целевой аудитории, замороченной на здоровье, удобнее в том формате (vcf со всем подряд) получать результаты.

Предложил им для нас, тоже немаловажной аудитории, замороченной на происхождении, сделать клиентоориентированную выгрузку y-днк результатов. В виде кнопки - Загрузить Ваши результаты Y-днк на YFull (естественно по договоренности с последними). А то не каждый юзер сообразит, что надо писать в хелп и что-то там просить.
Обещал подумать, как будет время)

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1390/-7
  • Ultimate Matriarchy
Re: Генотек
« Ответ #584 : 10 Февраль 2023, 16:00:17 »
Вячеслав, это отлично если Генотек может как-то получше клиентоориентировать свой геномный сервис. Да, VCF удобнее для целей здоровья, тк практически все программы-аннотаторы снипов просят на вход именно VCF. При этом им пофиг, что не было прочитано, главное что было: скрипт видит позицию и генотип в ней - и фигачит ответ, обращаясь например к базе OMIM.

Для филогенетики важно давать большее.

1. Точно различать no call и reference state.
2. Филогенетический коллинг, например как у yfull, требует и числа чтений: даже при плохом скоре единично прочитанный аллель может двинуть образец в нижестоящую кладу.
3. Инделы - тоже не лишнее знание. В редких случаях клада определяется только инделами, значит без оных будет потеря разрешения. STR, как вид инделов - самостоятельная ценность.

Все это можно пихать в VCF. Но нужна явная цель делать именно так, как требуется. Гораздо проще собрать BAM. Ничего кастомного.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.