Я в курсе что это PCA со старыми аутосомными данными. Но позицию на PCA ведь рассчитывали на калькуляторе?
Что значит обработка по сырым данным?
Построение PCA это процесс, когда из массива данных алгоритм автоматически вычленяет основную закономерность. Её значения определяют положение точек, представляющих образцы или усреднения по выборкам, на первой оси (PC1, component1). Затем из массива исключают влияние этой закономерности, и ищут на оставшихся данных влияние следующей. Её значения определяют положение на второй оси (PC2, component2). И так, пока закономерности не закончатся.
По этой информации можно построить двумерные графики по осям PC1-PC2 (это используется чаще всего), PC1-PC3 и любые другие.
При построении PCA на базе калькулятора в качестве исходных данных берётся таблица значений по его компонентам. Поэтому результат сильно зависит от выбора компонентов. При построении PCA на базе "сырых" (raw) аутосом в качестве исходных данных берутся непосредственно геномы. Здесь результат будет зависеть только от того, какие геномы участвуют в построении. Внутри набора будут найдёны наиболее значимые расхождения.
На PCA Лукаша осью 1 преимущественно оказалось наличие Fennoscandian или его аналога (не знаю, что за калькулятор). Осью 2 преимущественно оказалось различие "балтского" и "южноевропейского" компонентов (тянут в разные стороны).
Причины такого выбора элементарны. Размах значений Fennoscandian - от 0 до 80. Ни один другой компонент по этому показателю с ним не сравнится. Следующий по размаху компонент - East-Central-Euro с максимумом в районе 35 у балтов. Siberian с его 3.6 у эрзян шансов оказать заметное влияние не имеет.
На PCA по сырым данным осью 1 оказалось различие между восточноазиатами и средиземноморцами. Как мы знаем, это гораздо более важное отличие, чем разница между балтами и финнами
Осью 2 оказалось наличие "североевропейского" компонента, что тоже очень важный показатель.