АвторТема: Сравнение сиквенса мтДНК от 23andMe и FTDNA  (Прочитано 3556 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн rLinАвтор темы

  • Сообщений: 769
  • Страна: ru
  • Рейтинг +269/-0
  • Калуга
  • Y-ДНК: R1a1a-Z92 (Y569+)
  • мтДНК: T2b2-С16304T!
Мне нужна консультация по результатам решения одной задачи.
У меня есть raw-файл от 23andMe и файл FASTA с полным сиквенсом мтДНК. Что-то мне взбрело в голову сравнить значения, и вот что вышло:
1. По моим расчётом получилось, что результаты сиквенса различаются в 13 позициях: 208,300,469,5820,5877,8285,10388,14290,14422,15072,16179,16180,16392
Что составляет 0.5%
2. В одной из таких позиций в 23andMe на месте нуклеотида, внезапно, стоит буковка I : "i4000892   MT   8285   I". Хотя у 23andMe такое встречается в Haplogroup Tree Mutation Mapper, значит это не баг, и они в курсе.
3. 42 позиции в raw-файле от 23andMe помечены черточками '--'. То ли не нашли там ничего, то ли что-то другое...неизвестно.
4. Позиция 315 в файле FTDNA встречается два раза под именами 315.1 и 315.2, а в 23andMe не встречается совсем. За исключением этого места, я считал, что в FASTA-файле от FTDNA все позиции идут подряд.
Хотя есть ещё одна двойная позиция: 522.1 и 522.2, - единственная, которая вычисляется неправильно из файла в сравнении с данными FTDNA на странице mtDNA - Results. Но судя по тому, что неучтённость 522 не рушит все остальные расчёты, где-то, значит есть и пропуски. Короче говоря, 13 ошибок говорят либо о том, что где-то в тех районах различия в нумерации снипов между 23andMe и FTDNA, либо это и правда ошибки.
5. Позиция 11719 у 23andMe повторяется два раза под разными именами: rs2853495 и i3001044. Одна из них отмечена прочерками, а вторая совпадает с аналогичной из FASTA-файла.

Чувствую, что где-то есть ошибки в алгоритме сравнения, так что хочу, чтобы кто-нибудь проверил на своих файлах.
Тут у меня даже есть средство, программа на HTML. Надо просто скачать, запустить, выбрать файлы (RAW-файл с данными мтДНК от 23andMe и FASTA-файл с полным сиквенсом от FTDNA) и нажать "Посчитать" (приветствуются современные браузеры, но должно работать везде, полный файл 23andMe обрабатывается несколько дольше, чем только с мтДНА). Все расчёты делаются на локальном компьютере, в интернет ничего не идёт:
https://dl.dropboxusercontent.com/u/18527863/DNA/mtdnacompare.zip
Файл надо просто распаковать и запустить в любом современном браузере. Должон работать везде, точно в Google Chrome.
Проверить, насколько правильно считаны данные из файлов, можно выбрав позицию в мтДНК и нажав кнопку "Проверить позицию". Исходный код - сам по себе файл html, можно посмотреть, что там да как.

« Последнее редактирование: 22 Февраль 2014, 04:24:57 от rLin »

Оффлайн rLinАвтор темы

  • Сообщений: 769
  • Страна: ru
  • Рейтинг +269/-0
  • Калуга
  • Y-ДНК: R1a1a-Z92 (Y569+)
  • мтДНК: T2b2-С16304T!
Re: Сравнение сиквенса мтДНК от 23andMe и FTDNA
« Ответ #1 : 22 Февраль 2014, 13:34:32 »
Сравнил сейчас выдачу с сайта FTDNA и с моей интерпретацией HVR1 региона из файла FASTA. Всё совпадает полностью. Номера позиций в 23andMe указаны в файле, там уже особо не сдвинешься никуда.
Вывод: если нумерация  позиций FTDNA и 23andMe совпадает, - на лицо три несоответствия в HVR1 между результатами этих двух лабораторий.

upd: HVR2 аналогично. Таким образом, ещё три несоответствия, мне кажется, подтверждены, между двумя результатами.

На данный момент меня смущает всё же позиция 315.1. Это какая-то дополнительная мутация, которой нет в Кембриджской последовательности. У них написано, что данные для Revised Cambridge Reference Sequence. Будем надеяться, что моя схема будет работать и на тех файлах, где такой мутации нет (т.е. очень надеюсь, что расположение нуклеотидов в FASTA-файле для всех людей одинаковое). Первый признак того, что всё идёт не так - огромное количество различий. Если 0.5% они обещали, то половина ошибок или больше - ошибка алгоритма, конечно же.
« Последнее редактирование: 22 Февраль 2014, 13:49:07 от rLin »

Оффлайн rLinАвтор темы

  • Сообщений: 769
  • Страна: ru
  • Рейтинг +269/-0
  • Калуга
  • Y-ДНК: R1a1a-Z92 (Y569+)
  • мтДНК: T2b2-С16304T!
Re: Сравнение сиквенса мтДНК от 23andMe и FTDNA
« Ответ #2 : 22 Февраль 2014, 14:10:32 »
Завершена полная проверка моей интерпретации FASTA-файла от FTDNA. Проверка проводилась в полуавтоматическом режиме. Я копировал таблицу c HVR1,HVR2 или Coding Region со странички myFTDNA -> mt-DNA results -> rCRS values, потом строил аналогичную в HTML по результатам чтения FASTA-файла, потом сравнил файлы. Разница была только в тех строчках, которые отвечали за различия с rCRS, т.е. мои личные мутации.

FTDNA используют rCRS (Revised Cambridge Reference Sequence), с нумерацией позиции с 1 по 16569, позиция 315 встречается два раза: как 315 и как 315.1. Итого 16570 записей. 23andMe так же, судя по этому вот документу (https://customercare.23andme.com/entries/21252283-What-does-rCRS-mean-on-the-mitochondrial-page-in-Browse-Raw-Data-) использует rCRS.

Таким образом думаю, что 13 различий в результатах можно считать подтверждёнными.
Пример одного из таких различий.
23andMe пишет: position 208, SNP   i3002176, Variants   A or G   , Your result - A
FTDNA  пишет: position 208, SNP без имени, CRS T, Your result - T

Пишите, пожалуйста, если я что-то где-то не учёл. И вообще, непонятно: просто иметь это ввиду или стоит связаться с лабораториями и показать им разницу?
« Последнее редактирование: 22 Февраль 2014, 14:33:06 от rLin »

Оффлайн Людмила

  • Сообщений: 1007
  • Рейтинг +151/-1
Re: Сравнение сиквенса мтДНК от 23andMe и FTDNA
« Ответ #3 : 22 Февраль 2014, 16:37:01 »
rLin Вы интересное сравнение результатов проводите. У меня нет возможности сейчас самой включиться в эту проверку, хотя результаты FMS от FT и данные от 23andme у меня есть по 3м человекам. Хотя я удивлена -вряд ли в данных, которые предоставляет 23andme есть полная мито-последовательность.
Относительно Вашего примера
Цитировать
23andMe пишет: position 208, SNP   i3002176, Variants   A or G   , Your result - A
FTDNA  пишет: position 208, SNP без имени, CRS T, Your result - T
думаю, что это одно и тоже. 23andMe пишет - Variants   A or G, , Your result - A
Т.е. есть 2 варианта A or G, у Вас определен - A, а FTDNA определяет - Т(не G) . Ну, это тоже самое, что А, только в комплементарной цепи ДНК,

Оффлайн rLinАвтор темы

  • Сообщений: 769
  • Страна: ru
  • Рейтинг +269/-0
  • Калуга
  • Y-ДНК: R1a1a-Z92 (Y569+)
  • мтДНК: T2b2-С16304T!
Re: Сравнение сиквенса мтДНК от 23andMe и FTDNA
« Ответ #4 : 22 Февраль 2014, 17:34:11 »
Людмила, полной мито-последовательности в результатах 23andMe нет, там примерно 15%. Так что я сравнивал только кусок, общий для 23andMe и FTDNA.
Побывал на сайте James Lick (http://dna.jameslick.com/mthap/). Если туда ввести данные 23andMe он пишет, что 9 снипов исключены из рассмотрения, так как в чипе 23andMe v3 определяются ненадёжно. И вообще у него 2440 позиций после парсинга файла 23andMe, а у меня 2459 из того же файла. Попробую написать ему, узнать, что именно он выкинул и почему. Может быть число ошибок уменьшится до приемлемого.

Уточните, пожалуйста. Получается, что в 208 ошибки нет? Если учитывать, что А вместо Т и C вместо G это одно и то же, то из 13 ошибок остаётся только 4 штуки. Если они ещё и приходятся на ненадёжные позиции согласно данным James Lick (или чьим-то ещё), то всё нормально.
« Последнее редактирование: 22 Февраль 2014, 17:44:45 от rLin »

Оффлайн Людмила

  • Сообщений: 1007
  • Рейтинг +151/-1
Re: Сравнение сиквенса мтДНК от 23andMe и FTDNA
« Ответ #5 : 22 Февраль 2014, 17:56:10 »
Цитировать
Получается, что в 208 ошибки нет? Если учитывать, что А вместо Т и C вместо G это одно и то же
Да, думаю так.

Оффлайн rLinАвтор темы

  • Сообщений: 769
  • Страна: ru
  • Рейтинг +269/-0
  • Калуга
  • Y-ДНК: R1a1a-Z92 (Y569+)
  • мтДНК: T2b2-С16304T!
Re: Сравнение сиквенса мтДНК от 23andMe и FTDNA
« Ответ #6 : 22 Февраль 2014, 18:19:32 »
Людмила, спасибо. Обновил программу расчёта с учётом вашего замечания про комплементарность. 4 ошибки это уже не 13.

Оффлайн rLinАвтор темы

  • Сообщений: 769
  • Страна: ru
  • Рейтинг +269/-0
  • Калуга
  • Y-ДНК: R1a1a-Z92 (Y569+)
  • мтДНК: T2b2-С16304T!
Re: Сравнение сиквенса мтДНК от 23andMe и FTDNA
« Ответ #7 : 22 Февраль 2014, 21:10:46 »
James Lick прислал мне список позиций в файлах 23andMe, в которых, как он знает, ошибки в результатах.
Вот они: ("208A","469G","961G","5820G","5877G","10388T","14290A","14422A","15072T","16392A"). В этот список как раз входят все те найденные мною ошибки, за исключением 961 (там у меня совпадение с FTDNA), в которых A вместо T, С вместо G и так далее. Ещё одна позиция обозначена в 23andMe как 8285I, т.е., видимо, какая-то вставка, в любом случае значения нет, так что её можно, наверное, тоже игнорировать.
Остаётся три ошибки в позициях 300,16179,16180. Но James Lick пишет, что он исключает при обработке файлов 23andMe участки 300-315 и 16179-16193, так как эти участки сложны для автоматической обработки, и там бывают ошибки с позиционированием результатов. Если и я их исключу, то разницы в общих снипах у FTDNA и 23andMe не останется никакой. Что, без сомнения, приятно сознавать.

upd. Внёс в программу рекомендуемые исключения от James Lick (причём я у него сначала спросил, что он исключает, а потом показал свои ошибки, так что эксперимент прошёл чисто). Ссылка в первом сообщении (прикрепить по-прежнему не получается). Теперь с настройками по умолчанию различий между FTDNA и 23andMe у меня нет. Так что вместо сенсационного разоблачения имеется успокаивающий результат. Тоже хорошо.
« Последнее редактирование: 22 Февраль 2014, 22:36:29 от rLin »

Оффлайн Белгородец

  • Сообщений: 118
  • Страна: ru
  • Рейтинг +44/-0
  • Y-ДНК: I1-Z63-PR683
  • мтДНК: U4a2g
Re: Сравнение сиквенса мтДНК от 23andMe и FTDNA
« Ответ #8 : 22 Январь 2016, 09:10:03 »
Хочу тоже поделиться сравнением результатов мито-тестов в 23эндМи и в ФТДНА.
23эндМи протестировали 3 287 снипов мтДНА (полное мито – около 16 500 снипов, ГВР1и ГВР2 - порядка 1 100 снипов), т.е. по степени охвата у 23эндМи промежуточное положение между полным мито (FMS) и ГВР2 (HVR2).
Хотя 23эндМи охвачено всего лишь 20 % мито, но из моих характерных мутаций пропущено всего лишь 4 мутации из 34 (по сравнению со стандартом rCRS), что говорит о том, что в 23эндМи правильно выбирают наиболее важные участки мито. А именно, пропущены мои мутации  532.1C, 523.2A, 11332T и 15326G.
Также четыре (!) позиции определены неверно по сравнению с ФТДНА. В предыдущих сообщениях в этой теме отмечалось, что на тех позициях, где 23эндМи ошиблись, тест 23эндМи работает особенно плохо. Даны неверные значения мутаций 8285I (эта мутация уже обсуждалась ранее в этой ветке форума) и 16365G (это ошибка, так как в этой позиции могут быть или 16365T (стандартное значение), или 16365C (мутация). Неверно определено в 23эндМи значение 195d, у меня мутация 195C, а стандартное значение 195Т.
На форуме уже обсуждалось, что позиции 300-315 и 16179-16193 определяются 23эндМи с ошибками.
У меня на этих участках два отличия между 23эндМи и полным мито:
ФТДНА- 16179C (стандартное значение), 23эндМи - 16179T (мутация);
ФТДНА - 310d (мутация), 23andMe - 310C (мутация); 310Т – стандартное значение. Отмечу, что значения 310d и 310C получены для близких родственников в моей ветке. Это, видимо, означает, что даже на полное мито возможны ошибки, так как крайне маловероятны мутации на полном мито на протяжении всего лишь нескольких поколений.
Теперь о классификации. Меня 23эндМи определили как U4a2. Анализ данных ГВР2 показал, что я U4a, а полное мито показало, что я U4a2g. Так что и в классификации промежуточное положение между ГВР2 и полным мито. Хотя, справедливости ради, стоит заметить, что мутацию 6164Т, которая определяет принадлежность к ветке U4a2g, в 23эндМи у меня нашли.
Плохо то, что и по мито, и по игреку 23эндМи не выдает список приближенцев по своей гигантской базе, поэтому ни о какой филогении (да и как строить дерево, когда столько ошибок на мито!) говорить не приходится.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.