АвторТема: Оценка репрезентативности выборки по файлу ГЕДКОМ  (Прочитано 1991 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Опять подняли вопрос насколько правомочно использовать сводные данные, учитывая мизерный процент протестированных. Можно очередной раз поиронизировать о том, что неплохо бы было почитать о принципах статистической обработки, но вместо этого предложу другое, практическое и легко реализуемое решение.

Заранее извиняюсь за сбивчивость изложения. Идеи у меня вспыхивают в голове уже в достаточно оформленном виде. Проблемы возникают на этапе вербализации.

По своему всегдашнему тяготению к структуризации дискурсов, разобью поток сознания на отдельные сообщения. (Заранее извинюсь за то, что минут через 20 прервусь на сутки.)

Итак. Постановка задачи. Выяснить по пулу современников, сколько из них восходят к одному общему предку на заданной глубине. Или, говоря иначе, выяснить количество прямых линий заданной глубины (мужских, или женских) для пула современников.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Немного визуализации.   :)

Допустим, взяли мы товарищей в одном каком-то районе. С разными фамилиями причём. А они раз, и оказались себе со вполне общим документально подтверждённым предком.
Типа, как вот тут показано:

Это отцовская линия моей мамы.
Уже тестированная.
Результаты данного теста позволят сделать выверку на 5 поколений.



Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Если к примеру выяснится, что на тысячу взрослых мужчин современников в каком-то селе имеется всего десятков пять прямых линий в пределах генеалогического интервала (читай, документально подтверждённых), то это будет означать, что случайная выборка в 5% - вполне себе репрезентативна.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Если принять в расчёт вдобавок к предыдущему сообщению, что генеалогический интервал на славянских постсоветских территориях упирается по большей части во вторую половину 17 - начало 18 вв. и сделать экстраполяцию (о ней дальше пропою), скажем, на 1000 лет, то и 1% случайно отобранных претендентов на тестирование - будет вполне исчерпывающе описывать картину генетического разнообразия (читай, разнообразия предков).

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
В качестве материала для статистической обработки в пределах генеалогического интервала используем файл ГЕДКОМ.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
За пределами генеалогического интервала используем рекуррентный метод: исчерпывающие документальные родословия по какому-то небольшому ареалу (скажем, селу) + исчерпывающие тестирование. С последующим анализом количества пересекающихся линий, не подтверждённых документально.

Это выходит за рамки данной темы, в которой предлагаю ограничиться статистической обработкой только в пределах генеалогического интервала.

Но вполне себе реализуемо. Несмотря на НДБО и затраты. Скажем по селу с современным населением человек в 700, я уже натестировал больше 3 десятков. Т.е. более 4 процентов.

Это оставим на потом.    :)

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Итак. Берём файл ГЕДКОМ.
Вводим в скрипт изменяемые параметры.
Например, максимально удалённый год рождения нынеживущих. Возьмём, допустим, 1930. Более старших людей протестировать будет труднее.
Зададим минимальную документально подтверждённую цепочку. Ну, пусть будет 3 поколения. То есть, до известных прадедов включительно.
Запускаем.
На выходе получаем сколько всего мужчин, отвечающих данному критерию; сколько на них приходится общих линий заданной глубины; сколько человек приходится на одну линию.
Аналогичная статистика и по женщинам.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
В качестве примера приведу выходные данные по обсчёту поколенного интервала на основании файла ГЕДКОМ:

------------------------
 Statistics report
------------------------

Total persons: 41046
Males total: 21067
Females total: 19979

Pairs Father-Son total: 16998
among them with good dates (used in caluculations below): 14278
Pairs Father-Daughter total: 14568
among them with good dates (used in caluculations below): 12791
Pairs Mother-Son total: 15493
among them with good dates (used in caluculations below): 13535
Pairs Mother-Daughter total: 14115
among them with good dates (used in caluculations below): 12283


*** Generational interval ***

Mother-child:
Arithmetic mean: 29.00, Median: 28.00, Mode: 25
Absolute deviation: 6.18, Variance: 58.45, RMSD: 7.65, Standard deviation (unbiased): 7.65
Mother-daughter:
Arithmetic mean: 28.92, Median: 28.00, Mode: 25
Absolute deviation: 6.15, Variance: 57.47, RMSD: 7.58, Standard deviation (unbiased): 7.58
Father-child:
Arithmetic mean: 32.60, Median: 31.00, Mode: 30
Absolute deviation: 6.96, Variance: 75.50, RMSD: 8.69, Standard deviation (unbiased): 8.69
Father-son:
Arithmetic mean: 32.61, Median: 31.00, Mode: [28, 30]
Absolute deviation: 6.97, Variance: 76.25, RMSD: 8.73, Standard deviation (unbiased): 8.73
All:
Arithmetic mean: 30.84, Median: 30.00, Mode: 25
Absolute deviation: 6.71, Variance: 70.40, RMSD: 8.39, Standard deviation (unbiased): 8.39

All, by centuries:
17:
Arithmetic mean: 33.97, Median: 32.00, Mode: 29
Absolute deviation: 8.97, Variance: 127.47, RMSD: 11.29, Standard deviation (unbiased): 11.31
18:
Arithmetic mean: 30.55, Median: 29.00, Mode: 24
Absolute deviation: 7.44, Variance: 93.11, RMSD: 9.65, Standard deviation (unbiased): 9.65
19:
Arithmetic mean: 30.98, Median: 30.00, Mode: 25
Absolute deviation: 6.63, Variance: 66.87, RMSD: 8.18, Standard deviation (unbiased): 8.18
20:
Arithmetic mean: 30.63, Median: 30.00, Mode: [27, 28]
Absolute deviation: 6.10, Variance: 56.06, RMSD: 7.49, Standard deviation (unbiased): 7.49
21:
Arithmetic mean: 27.69, Median: 26.50, Mode: 25
Absolute deviation: 4.28, Variance: 26.29, RMSD: 5.13, Standard deviation (unbiased): 5.23

Father-son, by centuries:
17:
Arithmetic mean: 34.92, Median: 33.00, Mode: [27, 29, 42]
Absolute deviation: 8.97, Variance: 128.56, RMSD: 11.34, Standard deviation (unbiased): 11.40
18:
Arithmetic mean: 32.37, Median: 31.00, Mode: 30
Absolute deviation: 7.82, Variance: 103.57, RMSD: 10.18, Standard deviation (unbiased): 10.18
19:
Arithmetic mean: 32.77, Median: 32.00, Mode: 30
Absolute deviation: 6.83, Variance: 70.33, RMSD: 8.39, Standard deviation (unbiased): 8.39
20:
Arithmetic mean: 32.28, Median: 31.00, Mode: 28
Absolute deviation: 6.30, Variance: 60.52, RMSD: 7.78, Standard deviation (unbiased): 7.78
21:
Arithmetic mean: 28.40, Median: 27.50, Mode: 25
Absolute deviation: 4.88, Variance: 32.84, RMSD: 5.73, Standard deviation (unbiased): 6.04

Mother-daughter, by centuries:
17:
Arithmetic mean: 34.11, Median: 31.00, Mode: 25
Absolute deviation: 8.42, Variance: 93.36, RMSD: 9.66, Standard deviation (unbiased): 9.85
18:
Arithmetic mean: 28.55, Median: 27.00, Mode: 23
Absolute deviation: 6.80, Variance: 76.03, RMSD: 8.72, Standard deviation (unbiased): 8.72
19:
Arithmetic mean: 29.02, Median: 28.00, Mode: 22
Absolute deviation: 6.12, Variance: 55.69, RMSD: 7.46, Standard deviation (unbiased): 7.46
20:
Arithmetic mean: 28.88, Median: 28.00, Mode: 26
Absolute deviation: 5.64, Variance: 45.66, RMSD: 6.76, Standard deviation (unbiased): 6.76
21:
Arithmetic mean: 26.40, Median: 26.00, Mode: 26
Absolute deviation: 1.04, Variance: 1.84, RMSD: 1.36, Standard deviation (unbiased): 1.52

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Возможный вариант отработки - сверху вниз. Исчерпывающий для обрабатываемого файла ГЕДКОМ.
Берутся все мужчины (ну, и потом все женщины тоже) и обсчитывается общее количество прямых линий. Выдаётся также количество нынеживущих, пригодных для тестирования претендентов и количество оборвавшихся линий.
Короче говоря, скрипт не очень трудно реализуемый. В плане времязатратности.
Все входные и выходные данные можно обговорить.
Алгоритмы отработаем.
Осталось найти человека, который бы нашёл время и желание взяться за данную работу.    ::)

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
В качестве примера такого сотрудничества дам пару ссылок. Первая, вторая.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Опять таки. Речь не идёт о том, чтобы статейку тиснуть. Хотя и это можно. Потому как все нынешние рассуждалки в тему базируются на моделизационных методов. На фактическом материале ещё никто не отбомбился.

Да, и просто очень понять хочется. Живьём пощупать.   :)

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Нам не особо нужны оборвавшиеся в прошлом ветви, для того, чтобы определить репрезентативность выборки.
Ну, и потом. Оборвавшиеся ветви могут таковыми и не быть. Просто люди куда-то выехали.
Вы только представьте. Заводим себе минимальную длину ветви (три поколения, на мой взгляд, почти оптимально). Ставим минимальный возраст нынеживущих. 18 лет, например. Выбираем максимальный возраст современников. Допустим, 70 лет.

На выходе получаем что-то такого вот типа:

Обработано всего 41 тысяча человек.

Из них нынеживущих мужчин от 18 до 70 лет 2657 человек.
Прямых мужских линий для современников глубиной не менее 3 поколений 38.
Средняя глубина линии 7 поколений.
Среднее количество членов линии 70 человек.
Медианная глубина линии 8 поколений.
Медианная количество членов линии 56 человек.
Максимум (всего) 400 человек.
Минимум (всего) 4 человека.
Максимум (современники заданного возрастного интервала) 17 человек.
Минимум (современники заданного возрастного интервала) 1 человек.

Из них нынеживущих женщин от 18 до 70 лет 3005 человек.
Прямых женских линий для современников глубиной не менее 3 поколений 45.
Средняя глубина линии 7 поколений.
Среднее количество членов линии 67 человек.
Медианная глубина линии 6 поколений.
Медианная количество членов линии 61человек.
Максимум (всего) 350 человек.
Минимум (всего) 4 человека.
Максимум (современники заданного возрастного интервала) 25 человек.
Минимум (современники заданного возрастного интервала) 1 человек.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Далее путём нехитрых манипуляций можем определить, насколько репрезентативной будет случайная выборка по заданному населённому пункту, ареалу, или популяции.

Или же от противного. Сколько нужно протестировать случайных членов той или иной популяции, дабы получить требуемый процент охвата.

Оффлайн gecube_ru

  • Сообщений: 1005
  • Страна: ru
  • Рейтинг +165/-0
  • Незнайка на Луне
  • Y-ДНК: I-A6397 -> I-FGC79161
  • мтДНК: V7a1?
Софт написан?
Исследование проведено?
Чем делов-то кончилось?

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Софт написан?
Исследование проведено?
Чем делов-то кончилось?

Осталось найти человека, который бы нашёл время и желание взяться за данную работу.    ::)

Возьмётесь?
Помогу на уровне алгоритмов.
Предоставлю для отладки реальный ГЕДКОМ файл (около 44 тысяч человек).

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.


Rambler's Top100