АвторТема: Русские G25  (Прочитано 9271 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн rudrax

  • Сообщений: 22
  • Страна: ru
  • Рейтинг +9/-13
Re: Русские G25
« Ответ #15 : 25 Август 2021, 00:18:14 »
Кстати, советую убрать как можно больше нерелевантных точек (современных и древних народов, до которых самые большие дистанции от всех образцов пользователей - как например длинный разреженный "хвост", уходящий вправо). Специфика алгорима PCA, что оно проецирует данные из 25-и мерного пространства на 2-х мерную плоскость по двум осям, которые дают самую большую разницу (diversity) среди всех указаных образцов, и нетипичные образцы, которые обычно рисуются на границах PCA графиков "тянут одеяло на себя" - т.е. заставляют алгоритм выбирать именно эту плоскость. Если их убрать, то возможно выберется другая плоскость, более подходящая для релевантных образцов. У вас Северная Европа, т.е. довольно релевантный сет, но возможно что Кельтов, Романс и Западных Германцев можно убрать, если ни один из отправленных вам Русских образцов не окажется к ним близок. С другой стороны могут оказатся не представленные южные и восточные народы.
Не надо ничего убирать  G25 это и есть координаты PCA. 2 первых значения это есть просто 2 первых координаты, помноженные на масштабный коэффициент для скэйлед. Ничего рассчитывать не надо, по ним никаких вычислений PCA производить не надо, они сами PCA и ничего выбирать не надо, там нет хвостов. В Вахадуо они изображаются максимально информативно относительно данных популяций благодаря размещенным на ней популяциям. Никакие алгоритмы для расчета PCA для его вывода не используются, потому что он сам уже рассчитанные координаты  PCA, просто отрисовываются точки по этим координатам. Так что совет ошибочен.

И на карте посмотреть кто где расположится.
Это не карта, это график. В Вахадуо повернутый в трехмерной плоскости чтобы данные локальные популяции были максимально видны.

Оффлайн 19986

  • Сообщений: 171
  • Страна: us
  • Рейтинг +138/-1
  • Y-ДНК: I1 > M253 > L22 > S19986/Y3603 > S9318* (Нижегородская обл.)
  • мтДНК: J1c2* (Ивановская обл.)
Re: Русские G25
« Ответ #16 : 25 Август 2021, 01:41:18 »
Кстати, советую убрать как можно больше нерелевантных точек (современных и древних народов, до которых самые большие дистанции от всех образцов пользователей - как например длинный разреженный "хвост", уходящий вправо). Специфика алгорима PCA, что оно проецирует данные из 25-и мерного пространства на 2-х мерную плоскость по двум осям, которые дают самую большую разницу (diversity) среди всех указаных образцов, и нетипичные образцы, которые обычно рисуются на границах PCA графиков "тянут одеяло на себя" - т.е. заставляют алгоритм выбирать именно эту плоскость. Если их убрать, то возможно выберется другая плоскость, более подходящая для релевантных образцов. У вас Северная Европа, т.е. довольно релевантный сет, но возможно что Кельтов, Романс и Западных Германцев можно убрать, если ни один из отправленных вам Русских образцов не окажется к ним близок. С другой стороны могут оказатся не представленные южные и восточные народы.
Не надо ничего убирать  G25 это и есть координаты PCA. 2 первых значения это есть просто 2 первых координаты, помноженные на масштабный коэффициент для скэйлед. Ничего рассчитывать не надо, по ним никаких вычислений PCA производить не надо, они сами PCA и ничего выбирать не надо, там нет хвостов. В Вахадуо они изображаются максимально информативно относительно данных популяций благодаря размещенным на ней популяциям. Никакие алгоритмы для расчета PCA для его вывода не используются, потому что он сам уже рассчитанные координаты  PCA, просто отрисовываются точки по этим координатам. Так что совет ошибочен.
Если вы прогоните любой G25 калькулятор и посмотрите на вкладку PCA>Scores, то увидите, что координаты пересчитаны. Да, вы правы, что изначально G25 это универсальные PCA-координаты, но это не значит, что не происходит их дальнейший пересчёт для того, чтобы максимизировать разнообразие (diversity) для конкретного набора точек. По сути дела происходит трансформация (как минимум поворот и смещение центра координат) универсального 25и-мерного пространства в 25и-мерное пространство уже специфичное для конкретного набора точек (образцов). Именно поэтому имеет смысл убирать лишние точки, особенно "аутлаеры" (т.е. ближайшие к границам PCA1-PCA2).

Проведите мысленный эксперимент, представьте что в универсальной системе G25 точки расположены в виде 3х-мерной очень плотной длинной спирали (длина спирали много больше её диаметра). В таком случае ось PC1 будет вдоль этой спирали, и её проекция на 2х-мерную плоскость PC1-PC2 будет выглядеть как синусоида. Но если вы искуственно уберёте бОльшую часть спирали, оставив одну секцию (теперь диаметр спирали много больше чем её оставшаяся длина), то логично будет заново пересчитать PCA и перепроецировать набор точек, чтобы максимизировать разнообразие - и новая плоскость PC1-PC2 уже будет перпендикулярно предыдущей и выглядеть на ней оставшаяся секция спирали будет как окружность. Именно этим и занимается калькулятор G25 в том числе.

PS: Кстати конкретный пример: https://forum.molgen.org/index.php?topic=13778.msg529970#msg529970.
Картинка 1 это изначальный набор точек (видно два кластера). Картинка 2 это зум на левый кластер без изменений. Картинка 3 это как поменялся левый кластер после того, как убрали все точки правого кластера (и несколько аутлаеров из левого) - на лицо изменение в лучшую сторону в плане информативности - из простого овального облака он превратился в более сложную форму с тремя очевидными ответвлениями.

« Последнее редактирование: 25 Август 2021, 02:09:01 от 19986 »

Оффлайн rudrax

  • Сообщений: 22
  • Страна: ru
  • Рейтинг +9/-13
Re: Русские G25
« Ответ #17 : 25 Август 2021, 02:45:34 »
Если вы прогоните любой G25 калькулятор и посмотрите на вкладку PCA>Scores, то увидите, что координаты пересчитаны.
Не знаю что такое G25 калькулятор, таких просто нет, есть аутосомные G25 калькуляторы.Они координаты не пересчитывают.
Вахадуо вьер просто поворачивает двумерную плоскость в трехмерном пространстве чтобы максимально отобразить зашитые в нем популяции которые отображены справа в легенде. То есть просто берет первые три (может больше) координаты и отображает их в двухмерной плоскости под некоторым поворотом.

Цитировать
Да, вы правы, что изначально G25 это универсальные PCA-координаты, но это не значит, что не происходит их дальнейший пересчёт для того, чтобы максимизировать разнообразие (diversity) для конкретного набора точек. По сути дела происходит проекция универсального 25и-мерного пространства на 25и-мерное пространство уже специфичное для конкретного набора точек (образцов). Именно поэтому имеет смысл убирать лишние точки, особенно "аутлаеры" (т.е. ближайшие к границам PCA1-PCA2).
Да ничего подобного там не делается. PCA-координаты это и есть уже максимизированные по разнообразию в глобальном наборе данных. Для отображения в Вахадуо делается просто трехмерное преобразование по зашитой линейной формуле полученных из заранее выбранных популяций отображенных в легенде. В Вахадуо вюере точки не убираются, для их отображения ваших точек совершенно не нужно убирать никакие точки, потому что отображение ваших точек вообще никак не зависит от других ваших точек, от добавления точек G25 ничего не меняется на графике PСА, добасление или исключение никаких аутлаеров вообще никак не меняет G25 PCA. Вы видите трехмерное представление под некоторым углом который вообще никак не зависит от ваших точек, там есть простой прямой отобразитель без поворотов. Если у вас не G25 координаты, то вы можете рассчитать PCA.

Цитировать
Проведите мысленный эксперимент, представьте что в оригинальной системе G25 точки расположены в виде 3х-мерной очень плотной длинной спирали (длина спирали много больше её диаметра). В таком случае ось PCA1 будет вдоль этой спирали и на PCA1-PCA2 она будет выглядеть как синусоида. Но если вы искуственно уберёте бОльшую часть спирали, оставив одну секцию (теперь диаметр спирали много больше чем её длина), то логично будет заново пересчитать PCA и перепроицировать набор точек, чтобе максимизировать разнообразие - и новая плоскость PCA1-PCA2 уже будет перпендикулярно предыдущей и выглядеть на ней оставшаяся секция спирали будет как окружность. Именно этим и занимается калькулятор G25 в том числе.
Вы написали непонятные вещи даже для вас лично. Никакой логики тут нет, потому что суть G25 это именно-то что они всегда инвариантны вне зависимости от ваших данных.
Вахадуо это просто отрисовщик графики, он просто выводит точки на ллоскость. Это просто Вьер G25 координат.
Именно он здесь используется, он создавался специально для работы с G25. Там никакие точки не убираются.
Если вы сделаете какие либо преобразования с G25 координатами, то отображать в Вакхадуо их уже нельзя.



Оффлайн 19986

  • Сообщений: 171
  • Страна: us
  • Рейтинг +138/-1
  • Y-ДНК: I1 > M253 > L22 > S19986/Y3603 > S9318* (Нижегородская обл.)
  • мтДНК: J1c2* (Ивановская обл.)
Re: Русские G25
« Ответ #18 : 25 Август 2021, 03:17:37 »
Не знаю что такое G25 калькулятор, таких просто нет, есть аутосомные G25 калькуляторы.Они координаты не пересчитывают.
Свои претензии можете отправить на сайт dnagenics.com, которые продают (и раздают бесплатно) G25 Studio, в которой есть вкладка "калькуляторы". Напишите им, пожалуйста, скажите, что нехорошо людей обманывать и продавать то, чего в природе не существует. Мой скриншот был оттуда. Он координаты пересчитывает. Вахадуо - или как он там - вьювером не пользуюсь. Если это просто вьювер, тогда да, это не поможет, но в этом случае он очень серьёзно ограничивает его исследовательские возможности.

Цитировать
Вы написали непонятные вещи даже для вас лично.
Вот хамить и додумывать вещи за других людей не надо. Пока это вы не поняли, с чем вы спорите. Мои комментарии не относились к вьюверам. Если автор пользуется вьювером, то может смело игнорировать мою рекомендацию.

Оффлайн AndvariАвтор темы

  • Сообщений: 379
  • Страна: ru
  • Рейтинг +215/-1
  • Y-ДНК: R1a -YP582 - R-YP1080
  • мтДНК: H1a
Re: Русские G25
« Ответ #19 : 25 Август 2021, 12:12:33 »
Добавил еще двоих.

Получается вот так



Соответственно
я - это я, по обеим линиям русские Воронежской области.

Остальные

1- Русский Нижегородская и Ивановская области
2- Русский Орловская, Казанская, Рязанская,Московская Тульская губернии
3- Русский Центральная Россия+Польша (РП)
4- Поляк, Южная Польша
5- Rostislav, белорус?
6- Русский, Ярославская область+донские и кубанские казаки

Дистанции нашей небольшой выборки от меня



А вообще, похоже, что генетикой и генеалогией интересуются чаще всего люди, чьи предки из разных регионов :)

Оффлайн 19986

  • Сообщений: 171
  • Страна: us
  • Рейтинг +138/-1
  • Y-ДНК: I1 > M253 > L22 > S19986/Y3603 > S9318* (Нижегородская обл.)
  • мтДНК: J1c2* (Ивановская обл.)
Re: Русские G25
« Ответ #20 : 25 Август 2021, 20:57:42 »
Ради интереса попробовал то же сделать в G25 Studio с усреднёнными популяциями от Eurogenes. Я убрал некоторые народы (Зап. Европа, Татары, кластер северных народов - Саамы, Коми и т.д., потому что они оказались не релеванты для данных сэмплов).

Ростислав получился далеко от Белорусов, потому что там оказалась большая дистанция. Ближайшие - Украинцы, Поляки и Русские Орла и Курска.

Кубанские Казаки в этом сэмпле находятся ближе к северным народам.

Остальное вроде ожидаемо.

PS: Добавил BK_scaled - образец довольно близок к LITHUANIAN_PA (несколько ближе, чем Воронеж и Орёл, например), но из-за ограничений проекции, кажется, что оно далеко. Ближайшие - Тверь, Курск, Казаки (Украинские и Кубанские), потом Литва_PA.

« Последнее редактирование: 25 Август 2021, 23:25:28 от 19986 »

Оффлайн pashka_1604

  • берегите лес, негде будет партизанить
  • Сообщений: 456
  • Страна: ru
  • Рейтинг +295/-0
  • FTDNA: B486274 GEDmatch: HD652233 YFull: YF67527
  • Y-ДНК: R-Z92 (YP-569*> R-BY84206 / R-Y85137)
  • мтДНК: H6a1a (H6a1a21)
Re: Русские G25
« Ответ #21 : 25 Август 2021, 21:14:12 »

Дистанции нашей небольшой выборки от меня



Выходит, я к Вам ближайшим оказался. А на PCA как будто дальше.

Оффлайн 19986

  • Сообщений: 171
  • Страна: us
  • Рейтинг +138/-1
  • Y-ДНК: I1 > M253 > L22 > S19986/Y3603 > S9318* (Нижегородская обл.)
  • мтДНК: J1c2* (Ивановская обл.)
Re: Русские G25
« Ответ #22 : 25 Август 2021, 21:27:24 »

Дистанции нашей небольшой выборки от меня



Выходит, я к Вам ближайшим оказался. А на PCA как будто дальше.
По PCA нельзя сравнивать близость точек, т.к. это проекция многомерного пространства на двухмерное. Это как нельзя смотреть на небо и сказать, что две звезды находятся близко друг от друга в космосе, потому что вы их видите рядом - до одной может быть 5 световых лет, а до другой - 5000. Если посмотреть разные плоскости - PC1-PC2, PC1-PC3 и т.д., тогда картина (возможно) станет яснее.

Оффлайн AndvariАвтор темы

  • Сообщений: 379
  • Страна: ru
  • Рейтинг +215/-1
  • Y-ДНК: R1a -YP582 - R-YP1080
  • мтДНК: H1a
Re: Русские G25
« Ответ #23 : 25 Август 2021, 22:58:26 »

Выходит, я к Вам ближайшим оказался. А на PCA как будто дальше.

Да, похоже на то.
На PCA скорее всего наши точки примерно на одной плоскости. Выше правильно заметили про многомерность. Например, с Tora_sama мы на PCA совсем рядышком на графике. Но если глядеть через 3D вьюер, видно, что моя точка "на поверхности", а его "в глубинах".
График дает примерное представление расположения точек, а дистанции - точные расстояния друг от друга. Поэтому и нужны были координаты, чтобы сравнить. В конечном итоге вы, как человек с предками из близких регионов, оказались мне наиболее близки.

Оффлайн Tora_sama

  • Сообщений: 849
  • Страна: ru
  • Рейтинг +403/-0
  • Y-ДНК: E-Y184711
  • мтДНК: H1b2g
Re: Русские G25
« Ответ #24 : 29 Август 2021, 00:29:12 »
Косопузые отзовитесь...

Оффлайн Аббат Бузони

  • ...
  • Сообщений: 19891
  • Страна: ru
  • Рейтинг +1825/-60
  • Y-ДНК: I1-SHTR7+
  • мтДНК: H16-a1-T152C!
Re: Русские G25
« Ответ #25 : 31 Август 2021, 13:17:42 »
Косопузые отзовитесь...

Будут вам косопузые.
Как получить координаты, а то я от жизни отстал.

Оффлайн 19986

  • Сообщений: 171
  • Страна: us
  • Рейтинг +138/-1
  • Y-ДНК: I1 > M253 > L22 > S19986/Y3603 > S9318* (Нижегородская обл.)
  • мтДНК: J1c2* (Ивановская обл.)
Re: Русские G25
« Ответ #26 : 31 Август 2021, 23:49:11 »
Как получить координаты, а то я от жизни отстал.
Я делал через https://illustrativedna.com, но там не очень удобно с оплатой.

Оффлайн Аббат Бузони

  • ...
  • Сообщений: 19891
  • Страна: ru
  • Рейтинг +1825/-60
  • Y-ДНК: I1-SHTR7+
  • мтДНК: H16-a1-T152C!
Re: Русские G25
« Ответ #27 : 01 Сентябрь 2021, 00:11:49 »
Битая ссыль

Оффлайн FELIX

  • Сообщений: 4143
  • Страна: rw
  • Рейтинг +1614/-9
  • Y-ДНК: R-YP569
  • мтДНК: U5a1a1b
Re: Русские G25
« Ответ #28 : 01 Сентябрь 2021, 00:19:30 »
Sorry, we're doing some work on the site
Thank you for being patient. We are doing some work on the site and will be back shortly.

Техобслуживание

Оффлайн AndvariАвтор темы

  • Сообщений: 379
  • Страна: ru
  • Рейтинг +215/-1
  • Y-ДНК: R1a -YP582 - R-YP1080
  • мтДНК: H1a
Re: Русские G25
« Ответ #29 : 01 Сентябрь 2021, 13:02:16 »
Вчера уже появились в доступе рязанские образцы. И не только рязанские. Еще несколько русских групп. Это хорошо. Жалко лишь, что воронежская выборка не пополнилась. Про ее особенности я писал в первом посте.

В общем-то, средние точки русских выборок расположились так. Заполнились лакуны. Я думаю, обозначения понятны. Белгород, Курск, Калуга и т.д.



С более полными данными я теперь стал близок к рязанцам, что не неожиданно, учитывая, что этот регион принимал существенное участие в колонизации моей области.



По близости к индивидам так


На PCA я расположился внутри рязанского облка



А что до остальных, кто передавал мне данные или отписывался здесь, то выходит так.


1- Русский Нижегородская и Ивановская области


2- Русский Орловская, Казанская, Рязанская,Московская Тульская губернии


3- Русский Центральная Россия+Польша (РП)


4- Поляк, Южная Польша


5- Rostislav, белорус?

Что это за молдаване о? Это явно не какие-то обычные молдоване.


6- Русский, Ярославская область+донские и кубанские казаки



 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.