Просто так выписывание фамилий, увы, не работает. Самое первое, что я сделал когда сделал аутосомный анализ - это, конечно, залил это везде где можно и написал скрипт, который вытаскивает фамилии из всех деревьев и создает частотный словарь. Здравая идея, правда?
Неправда, как оказалось. Добавив несколько эвристических фильтров (берем только совпаденцев, когда есть сегменты > 23cm и тп) и нормализации (объединения фамилий типа Kohn и Cohen, Levine и Levin, Rosen и Rozen), вот пример 15 самых частых фамилий:
cohen 35
schwartz 16
levy 13
miller 10
levin 10
goldberg 8
rosen 7
wolf 6
weiss 6
rabinovich 6
kogan 6
kaufman 6
greenberg 6
goodman 6
Проблема в том, что это более-менее просто частотный словарь ашкеназских фамилий получился. У почти всех моих знакомых ашкеназов точно такой же список. Одна из причин, почему я пошел делать Big Y - чтобы убедиться, что мой отец не коэн.
В конечном итоге с ашкеназами и особенно с ашкеназами из бывшей российской империи 3 больших проблемы, которые дают "идеальный шторм"
1. Эндогамность - тут нечего добавить, очень много шума в днк. Если нет общих длинных сегментов, высока вероятность false positive.
2. Большинство совпаденцев в США или Израиле, которые бежали от холокоста/погромов и их деревья очень часто составлены по бабушкиным рассказам и *очень* ненадежны. Дополнительно догадаться какая была чья-то фамилия до перевода ее в английски - не всегда удается. Cohen мог быть и Кон и Коган и вообще как угодно - хоть Вассерман.
3. Огромное количество уничтоженных метрических книг во время холокоста. Одна из вещей от которых впадаешь в реальный ужас, если честно. Сотни людей исчезнувших в истории только в деревьях у моих совпаденцев. Только Вад Яшем помогает иногда (редко).
В общем я не хотел пока что публиковать ничего потому что процесс идет и я дополнительно в помощь нанял мормонов с их генеалогической экспертизой и сам пытаюсь написать софт поумнее для отслеживания совпадений. Но конечно, остается вероятность, что все это впустую и из-за того же холокоста ничего найти не получится. Конечный отчет опубликую вне зависимости.