Подробности о myOrigins от Razib Khan и Rui Hu. В основном состоит из расширенного описания кластеров, но в начале заметки есть кое-что об использованной методике.
Можно подвести некоторые итоги:
1) Для выделения кластеров использовалась программа Admixture - тот же метод, что и при создании калькуляторов Gedmatch. Про дальнейшую обработку данных ничего не сказано. Похоже, что выданы напрямую кластеры Admixture - "предковые компоненты". Хотя мне все равно кажется, что какая-то отличная от Admixture обработка была.
2) Не использовались выборки из Поволжья, Урала, Северного Кавказа, Сибири, Средней Азии, Китая. Северо-Восточная Азия представлена исключительно японцами (~90%) и близкими к ним корейцами. Европа западнее российских границ представлена большим количеством сравнительно мелких выборок с повышением к Британии (попытка усилить "британский" кластер) и к Испании (замена сардинцам для выведения "средиземноморского" кластера).
3) Вероятно, отсюда проистекают "шумность" при разделении по кластерам внутри Европы и частое появление "афганского" кластера, который на макроуровне ближе к Европе.
4) Возможно, асимметричность выборок вызвана желанием вывести много западноевропейских кластеров, то есть улучшить детализацию для основной части клиентов. В результате от зашумленности страдают и они.