АвторТема: FTDNA начала принимать более новые файлы 23andme и AncestryDNA  (Прочитано 17649 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Назвали цифру 0.72%. Типа это ноу коллы. На самом деле это символы --. Которые возможно и не ноу коллы вовсе.
Я де привёл откуда то из закоулков сознания цифирь в 22%. Подиверждения ей не нашёл. Но два преслрвутых файла разнятся на 17%. Разница межлу максимальным и минимальным файлами по каждой сборке достмгает 20%.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Коллеги, Вы мне так дороги, что пишу с телефона в вэропорту.
:)

Оффлайн gecube_ru

  • Сообщений: 1440
  • Страна: hu
  • Рейтинг +268/-7
  • Незнайка на Луне
  • Y-ДНК: I-A6397 -> I-FGC79161
  • мтДНК: V7a1?
Цитировать
Далее ПРЕДПОЛОЖИЛ, что символы -- означают не ноу колл, а отсутствие значений. В подтверждение привёл два скрина из РАЗНЫХ файлов ОДНОГО И ТОГО ЖЕ человека, где в идентичных пощициях имеем --.
1. А в чем разница между no-call и отсутствием значения? У нас же здесь нет маппирования на референс цепочек как в BigY. Либо конкретный SNP есть в референсном билде генома (будь то b36, или b37), или его нет.
2. У меня в той же позиции есть snp...

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
ГедМаич тоже считает -- , как ноу коллы.
Мы же (точнее пользователь парово3) сравнмвали утилитой дыа выходных файла. В выходной файл скидывались ПОЗИЦИИ, которые есть в одном файле, но отсутствуют в другом. И вот ВРОДЕ БЫ иной раз разница составляла до 22%.

Оффлайн gecube_ru

  • Сообщений: 1440
  • Страна: hu
  • Рейтинг +268/-7
  • Незнайка на Луне
  • Y-ДНК: I-A6397 -> I-FGC79161
  • мтДНК: V7a1?
Mich Glitch
Цитировать
Но два преслрвутых файла разнятся на 17%. Разница межлу максимальным и минимальным файлами по каждой сборке достмгает 20%.
Михаил, мы сырые файлы от ft-dna в одном билде сравним? Вам написать алгоритм как это сделать? Или может скрипт?
Если Вы не хотите выкладывать сами файлы ))))

P.S. Вы мне тоже очень дороги. Почти уже как член семьи  ;D ;D ;D Наверное, дело в нике. Glitch - это же глюк? ))))

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Вот и мой вопрос повторили.
Привёл пример по мито. Там стоят --. Не как ноу коллы. А как отсутствие фрагментов. Нуклеотидов.

То есть имеем два явления. Отсутствие мооекулярной цепрчки в позиции (пардрн за такой корявый термин) и непрочитанные цепочки.

Мря версия, все проблемы из за того, что в силу техническиз причин, кое где данные не прочитаны.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Ура. Поняли. Да, мать его! Конкчно же в одном билде. Мало того, от одного и того де человека.
Ну не надувайтк де Вы обиденно нубки. Посмотрите на картинки, что Вам дал.

Оффлайн gecube_ru

  • Сообщений: 1440
  • Страна: hu
  • Рейтинг +268/-7
  • Незнайка на Луне
  • Y-ДНК: I-A6397 -> I-FGC79161
  • мтДНК: V7a1?
Повторюсь - я НЕ ДОВЕРЯЮ GEDMATCH.
Потому что он конвертирует данные в некий свой формат.
И непонятно что там при этом с ними происходит.
Давайте сравнивать САМИ "СЫРЫЕ" ДАННЫЕ от FTDNA в распакованным виде (т.е. сам CSV, а не csv.gz!!!)

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Моя гипотеза - непрочитанеые значения. Если у кого-то есть что-то другое, очень хорошо.

Но объясните тогда разницу размеров файлов одного билда.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Бесполезно спорить, когда доводы твои попросту игнорируют. На основании того, что груб де.

:)

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Никто не пробовал?

Пробовал. У меня семь дублей 23эндМи + ФФ и один дубль ФФ + ФФ (по ошибке во время взятия теста у двух персон, от одного и того же человека положили пробирки в два разных кита).

Вот и говорю (по этим результатам, а не по чьему-то наущению  :) ), не совпадают:
- размеры листов;
- порядки персон;
- предикты степеней родства по персонам;
- суммарные совпадения;
- отдельные УПСы.

И причина основная, конечно же, не в размерностях панели и разных рассматриваемых участках (на момент тестов, панели были полностью идентичными), а в непрочитанных участках. В ноу, мать их, коллах. Которые составляют (если не ошибаюсь) около 22% от всего прочтения. Один раз одно не прочиталось. Другой раз другое.

Второй резон - разность подхода к разрыву цепочки. Имеем 3, 5 и 7 (уже не помню, где, что и у кого) максимально непрочитанных и ОТЛИЧАЮЩИХСЯ значений, которые за разрыв не полагаются. То есть, помимо одной пятой на ноу-коллы, ещё в некоторых случаях до 5% идёт на инструментальную ошибку. Т.е. не на отсутствие вычитки вообще, а на неправильную вычитку.



Это инициальное сообшение.
Начали мудрить, аочему данные одного и того же человека от 23эндМи не совпадают с ФТДНА.
Просто прочитайте непрелвзято мои сообщения после этого.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Отключаюсь.
Посадка скоро.
Жена ворчит.
Да и притомили вы меня своей непонятлмвостью и девчачей обидчивостью.


:)

Оффлайн Srkz

  • Сообщений: 8538
  • Страна: ru
  • Рейтинг +4875/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Нормальное такое объяснение.
Дело оказывается в Х хромосоме.
Вы не видите, что у меня подписаны папки?
36 сборка. Два файла одного и того же человека отличаются по размеру. Файлы разных людей отличаются по размерам.
Откройте файлы, посмотрите количество снипов в каждом и заканчивайте позориться.

Оффлайн gecube_ru

  • Сообщений: 1440
  • Страна: hu
  • Рейтинг +268/-7
  • Незнайка на Луне
  • Y-ДНК: I-A6397 -> I-FGC79161
  • мтДНК: V7a1?
У меня такой расклад получается.



Считал под линуксом с помощью команд работы с текстовыми файлами.
Один нюанс - из столбика с общим количеством SNP нужно вычесть 1 (на заголовок "RSID,CHROMOSOME,POSITION,RESULT")
no-call'ами обозначил записи вида "--"

UPD: еще китов натырил с интернета...

« Последнее редактирование: 20 Февраль 2017, 17:11:45 от gecube_ru »

Оффлайн gecube_ru

  • Сообщений: 1440
  • Страна: hu
  • Рейтинг +268/-7
  • Незнайка на Луне
  • Y-ДНК: I-A6397 -> I-FGC79161
  • мтДНК: V7a1?
Эти цифры наводят меня на мысль, что чипы Иллюмина стабильно читают только 680545 позиции в аутосомах + 17587 в Х. Остальные результаты, как видите, даже если по количеству SNP совпадают, то no-call'ов (в терминологии gedmatch, утилит Пайка и пр.) разное кол-во.
К тому же, они отличаются от приведенных мной официальных и полуофициальных данных здесь.
« Последнее редактирование: 20 Февраль 2017, 17:30:27 от gecube_ru »

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.