АвторТема: FTDNA начала принимать более новые файлы 23andme и AncestryDNA  (Прочитано 17464 раз)

0 Пользователей и 2 Гостей просматривают эту тему.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Взял наобум:


Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Видите? Две нижних строчки?

Суммарные совпадения разнятся. 89.4 сМ против 88.5 сМ.

Как уже говорил, есть и несовпадающие УПСы. А как им не быть, если при тех же самых критериях - суммы разные.     :o

Оффлайн rLin

  • Сообщений: 769
  • Страна: ru
  • Рейтинг +269/-0
  • Калуга
  • Y-ДНК: R1a1a-Z92 (Y569+)
  • мтДНК: T2b2-С16304T!
Mich Glitch, я ничего не понял, но лично у меня 6.х Мбайт занимают файлы протестированных в FTDNA и скачанные с сайта FTDNA в любой версии,36 или 37.
А 7.x Мбайт - файл протестированного меня переведенные из 23andMe в формат FTDNA и скачанные с сайта FTDNA, снова в любой версии.
Рискну предположить, что панель SNP у каждой лаборатории строго определённая, поэтому файл должен включать все SNP, которые есть на чипе и не включать те, которых на чипе нет. Соответственно, если в файле --, то данные должны быть, но по каким-то причинам не прочитаны. Если данные никто не собирался читать, то и в файле не будет информации о них. Ни к чему.

Распределение размеров файлов примерно на две группы может быть из-за:
1. Файлы большего размера получены трансфером из 23andMe, меньшего - оригинальные файлы FTDNA.
2. Разные версии чипов FTDNA. Я читал, что каждый год немного (или много) меняется набор снипов.
3. Архиватор чудит. Заметьте, кстати, что файл X-хромосома + аутосомы всегда больше, чем сумма файлов с X-хромосомой и аутосомами. Хотя должно быть наоборот, ведь данные одинаковые, но в двух файлах два заголовка, а в одном - один. Загадка...


Я чувствую, что спор идёт по-поводу какого-то элементарного вопроса, но не могу поймать нить рассуждений.


Mich Glitch, по поводу rs10797423 у китов 277811 и 277812 могу предположить следующее объяснение. В данной точке no calls, но не из-за ошибки чипа, а из-за того, что такого снипа у тестируемого просто нет. Предполагаю по аналогии с mtDNA, которая разной длины может быть из-за того, что некоторые у кого-то снипы выпадают. Но это предположение, естественно.

Mich Glitch, расскажите, пожалуйста, подробнее про киты 277811 и 277812. Вы писали, что пробирки от одного человека случайно попали в два разных теста. У вас было четыре пробирки с ДНК одного человека или в каждом наборе было по две пробирки от разных людей? Непонятно.

Mich Glitch, вы сами с этим вопросом разобрались и нам сейчас пытаетесь объяснить? Если нет, то могу попробовать как-нибудь какую-нибудь утилиту сделать, которая бы сравнила два ваших файла и выдала вам статистику несовпадений. Сами файлы не нужны. Вы только скажите, что именно хотите получить. Если да, то объясните уже, наконец, что происходит!:)
« Последнее редактирование: 20 Февраль 2017, 10:09:08 от rLin »

Онлайн Srkz

  • Сообщений: 8537
  • Страна: ru
  • Рейтинг +4874/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Рискну предположить, что панель SNP у каждой лаборатории строго определённая, поэтому файл должен включать все SNP, которые есть на чипе и не включать те, которых на чипе нет.
Совершенно верно
Цитировать
Mich Glitch, вы сами с этим вопросом разобрались и нам сейчас пытаетесь объяснить? Если нет, то могу попробовать как-нибудь какую-нибудь утилиту сделать, которая бы сравнила два ваших файла и выдала вам статистику несовпадений. Сами файлы не нужны. Вы только скажите, что именно хотите получить. Если да, то объясните уже, наконец, что происходит!:)
Говоря по простому, человек путается в базовых вещах, но очень хочет поучать окружающих.

Оффлайн gecube_ru

  • Сообщений: 1440
  • Страна: hu
  • Рейтинг +268/-7
  • Незнайка на Луне
  • Y-ДНК: I-A6397 -> I-FGC79161
  • мтДНК: V7a1?
Цитировать
2. Разные версии чипов FTDNA. Я читал, что каждый год немного (или много) меняется набор снипов.
Как минимум имеется три версии чипов FTDNA, которые они подсовывали втихную.

https://www.snpedia.com/index.php/FamilyTreeDNA
Цитировать
The FTDNA Family Finder test (autosomal & X chromosome SNP test) uses Illumina OmniExpress microarray chip. The chip includes about 696,800 SNPs for autosomal and X (but not Y or mitochondrial) ancestry testing for $99. In chips manufactured on or after December 2012 the number of SNPs on the OmniExpress chip was reduced by Illumina from the original 707,000 SNPs to 696,800.

The chip changed again slightly by the end of 2013, when supplies moved from 12 to 24 samples per chip. FTDNA accepts autosomal raw data transfer from older version of 23andMe (v3) test that was available until end of 2013, as well as AncestryDNA. Getting full access to the transferred results costs $39, without discounts. See FTDNA guide for 23andMe transfer and guide for AncestryDNA transfer.

Family Finder test build 36 raw data file done in March 2014 with the 24 sample chip contained 693,733 autosomal SNP's and 17,691 X-chromosome SNP's for 711,424 total including no-calls and SNP's otherwise not recognized by Promethease. Some 13,193 of these have annotations in SNPedia, though not all SNP's may have been able to be determined in a given sample. FTDNA Family Finder test does not report Y-chromosome and mitochondrial SNP's, and suppresses some other SNP's on the chip. Build 37 files have 27 fewer SNP's listed, likely because they are no longer mapped on it.

https://www.familytreedna.com/learn/autosomal-ancestry/universal-dna-matching/data-points/

Цитировать
The Family Finder test uses the Illumina OmniExpress microarray chip. The chip includes about 696,800 autosomal single nucleotide polymorphisms (SNPs).

Note: After quality control improvements in chips manufactured on or after December 2012, Illumina reduced the number of SNPs on the OmniExpress chip from the original 707,000 SNPs to 696,800. However, we have evaluated the Family Finder matching program and validated that the change does not adversely affect our Family Finder matching program.


Спецификации на OmniExpress есть на сайте Illumina.
Например, я уверен, что FTDNA сейчас использует такой чип - https://www.illumina.com/documents/products/datasheets/datasheet_human_omni_express.pdf
« Последнее редактирование: 20 Февраль 2017, 11:47:07 от gecube_ru »

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Ребята, браво!
Восхищён.
Два человека. Тестирует их третий в одно и то же время. Взял забор первой пробирки у каждого. Череэ час вторая пробирка у каждого. По ошибке в каждом конверте по две разных пробирки.
В лаборатории обработали от каждого кита сэмплы одного человека. В одном батче.
Внимание, дети (раз настаиваете на том, что всё это делаю токмо для поучения, буду звать вас так). Как возможно иметь разные панели в это случае?
Как возможно иметь разные размеры файлов, если только не из за ноу коллов?

Сам не разобрался. Надеюсь вы мне поможете.

:)

Оффлайн AlexanderK

  • Сообщений: 1936
  • Страна: ru
  • Рейтинг +357/-1
  • Y-ДНК: J1-PF7257
  • мтДНК: H11a1
А никто еще не пробовал отправлять тесты своей кошечки или собачки?  Очень хотелось бы посмотреть не результаты  ;D

Онлайн Srkz

  • Сообщений: 8537
  • Страна: ru
  • Рейтинг +4874/-3
  • Y-ДНК: N-L1025 Y64023
  • мтДНК: U4a1-a C16134T
Внимание, дети (раз настаиваете на том, что всё это делаю токмо для поучения, буду звать вас так). Как возможно иметь разные панели в это случае?
Как возможно иметь разные размеры файлов, если только не из за ноу коллов?
Вы бы перестали изображать крайнего дурачка, и, как вам вчера советовал gecube_ru, открыли файлы и сравнили количество снипов. Тогда бы увидели, что файлы на 6 мб содержат аутосомы и X-хромосому, а файлы на 7.5 мб содержат только аутосомы. Файлы первого типа сжимаются сильнее, поэтому они меньше (хотя снипов там больше). Количество аутосомных снипов должно быть одинаково.

Если полагать зипун по 277812, размером в 7448 КБ за 100%, то 6200 КБ по 277811 составят 83%.
Да, надо смотреть размеры выходных файлов. Сравнивать их. И т.д. И т.п.
зипуны лучше не сравнивать. Если есть эксель или либреофис - лучше сравнивать кол-во строчек, соответствующих исследуемому вопросу (аутосомы, Y или мито).
Повторюсь, что сжатие файлов неравномерно и дает разброс, скажем, 5%. Строчки те же - содержимое разное.
К тому же, есть разные алгоритмы сжатия (в рамках одного формата - будь то ZIP, или GZip) и мы пока что не можем утверждать, что во все времена для всех файлов использовался один алгоритм....
Конгениально, мой юнный друг. Опять думаете, что имеете дело с идиотами.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Нормальное такое объяснение.
Дело оказывается в Х хромосоме.
Вы не видите, что у меня подписаны папки?
36 сборка. Два файла одного и того же человека отличаются по размеру. Файлы разных людей отличаются по размерам.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Идём дальше папка 37 сборки. Файлы одного и того же человека (один день забора материала, один батч обработки) отличаются по размерам. Файлы разных людей отличаются по размерам.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
ГедМатч. Два файла одной сборки от одного человека. Одних и тех же родичей показывают разно.

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
С самого начала выдвинул ГИПОТЕЗУ о том, что всё это вызывается ноу коллами.
Последовательно привожу доказательства.
Реагируют на мою форму ведения дискуссии. Типа поучаю. Типа дурашлив. Совершенно игнорируют суть.

Оффлайн rLin

  • Сообщений: 769
  • Страна: ru
  • Рейтинг +269/-0
  • Калуга
  • Y-ДНК: R1a1a-Z92 (Y569+)
  • мтДНК: T2b2-С16304T!
Mich Glitch, называйте как хотите, только в печку не ставьте. :) Если вас такое предложение интересует, я вам попробую написать утилиту, которая вам сообщит, в каком из двух файлов строчек больше, какие строчки различаются и тому подобное. Сами всё посмотрите (правда придётся разархивировать перед проверкой).

Т.е. получается, что в FTDNA случайным образом выбрали по одной пробирке из двух для теста и обе оказались для одного человека? А вы им писали об этом? Или вопрос давно решён и не актуален?

Оффлайн Mich Glitch

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Далее ПРЕДПОЛОЖИЛ, что символы -- означают не ноу колл, а отсутствие значений. В подтверждение привёл два скрина из РАЗНЫХ файлов ОДНОГО И ТОГО ЖЕ человека, где в идентичных пощициях имеем --.

Оффлайн gecube_ru

  • Сообщений: 1440
  • Страна: hu
  • Рейтинг +268/-7
  • Незнайка на Луне
  • Y-ДНК: I-A6397 -> I-FGC79161
  • мтДНК: V7a1?
Раз Михаил настаивает, то давайте gedmatch попробуем.
Хотя он не идеал - он явно конвертирует данные в свой внутренний формат.

Речь идет о китах
Цитировать
Kit Number:       T304962
Name:       Dmitri Badia (277811)
Kit Number:       T803120
Name:       Dmitri Badia (277812)

Получается:
Цитировать
Processed in batch 5567
Number of SNPs utilized by GEDmatch template = 703543
Number of regular SNPs = 703412
Heterozygosity index = 0.284337 (fraction of total SNPs that are heterozygous)

No-calls = 1245 = 0.17668170471591 percent.
против
Цитировать
Processed in batch 5569
Number of SNPs utilized by GEDmatch template = 703543
Number of regular SNPs = 702358
Heterozygosity index = 0.284452 (fraction of total SNPs that are heterozygous)

No-calls = 2299 = 0.32625802340713 percent.

Но, конечно, лучше сравнивать сами "сырые" данные от FTDNA.
Дополнительно я представляю, что возможна инструментальная ошибка у Михаила, что материалы были попутаны еще один раз.
Или ошибка в лаборатории - они интересно, материал из пробиров отдельно проверяют, или сливают в некую общую емкость? Если так, то получается, что в бульоне плавала ДНК двух разных людей... И какую именно ДНК проверил чип - боооольшой вопрос.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.