Надо всё-таки сделать наоборот:
1. Сначала выделить генетически сходные группы.
2. Попытаться увязать полученные кластеры с этносом, или регионом.
Так тоже стараются делать. Сложность в том, чтобы найти хороший способ выделения внутренних кластеров для крупных общностей наподобие славянских, германских, романских народов. Важный момент - выделение должно работать и для людей смешанного происхождения. Поэтому отпадает подход оракулов Gedmatch. Если просто делить геномы по общему сходству, то в Европе уверенно видны лишь кластеры высокого уровня - восточноевропейский, средиземноморский, и кластеры маленьких, хорошо выделенных популяций - как финны, ашкенази, марийцы, баски.
На другом конце шкалы (самые мелкие кластеры) можно уверенно видеть родство с людьми из какой-нибудь очень хорошо охваченной тестами деревни. Но таких деревень у нас в стране раз-два и обчёлся
Однако это показывает, что поиск общих сегментов действительно в теории способен решить проблему. Дело упирается в объём выборок. На моих выборках удаётся уверенно выделять внутри восточных славян только северных русских, с учётом оговорки о необходимости видеть и смешанное происхождение. Так-то и более мелкое деление проявляется, но для индивидуального разнесения миксов это ненадёжно. Полагаю, используемые 23andme IBD-выборки на несколько порядков больше, однако на уровне областей у них, действительно, в большинстве случаев пока что выходит ерунда. На уровне стран - что-то начинает получаться, но тоже далеко не всегда.
Не исключено, что они-то как раз и могли бы найти эти объективные кластеры среднего уровня внутри восточнославянских популяций, если не привязываться к границам современных стран. Но вот пока что не делают этого
А может быть, это и для 23andme сейчас недоступно - ведь в идеале надо учитывать только коренное сельское население, без смешанного городского и мигрантов XX века. Примешивание этих людей затрудняет задачу. В любом случае, рост выборок должен постепенно-понемногу улучшать результаты 23andme.