АвторТема: Оценка репрезентативности выборки по файлу ГЕДКОМ  (Прочитано 4458 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Образчик статистики по другой утилите обработки ГЕДКОМ файла:

------------------------
 Statistics report
------------------------

Total persons: 43442
Males total: 22609
Females total: 20833

Pairs Father-Son total: 18217
among them with good dates (used in caluculations below): 14438
Pairs Father-Daughter total: 15193
among them with good dates (used in caluculations below): 12926
Pairs Mother-Son total: 16145
among them with good dates (used in caluculations below): 13681
Pairs Mother-Daughter total: 14583
among them with good dates (used in caluculations below): 12410


*** Generational interval ***

Mother-child:
Arithmetic mean: 29.00, Median: 28.00, Mode: 25
Absolute deviation: 6.17, Variance: 58.35, RMSD: 7.64, Standard deviation (unbiased): 7.64
Mother-daughter:
Arithmetic mean: 28.91, Median: 28.00, Mode: 25
Absolute deviation: 6.14, Variance: 57.22, RMSD: 7.56, Standard deviation (unbiased): 7.56
Father-child:
Arithmetic mean: 32.59, Median: 31.00, Mode: 30
Absolute deviation: 6.95, Variance: 75.40, RMSD: 8.68, Standard deviation (unbiased): 8.68
Father-son:
Arithmetic mean: 32.61, Median: 31.00, Mode: 30
Absolute deviation: 6.96, Variance: 76.06, RMSD: 8.72, Standard deviation (unbiased): 8.72
All:
Arithmetic mean: 30.84, Median: 30.00, Mode: 25
Absolute deviation: 6.70, Variance: 70.30, RMSD: 8.38, Standard deviation (unbiased): 8.38

All, by centuries:
11:
Arithmetic mean: 28.26, Median: 27.50, Mode: 23
Absolute deviation: 6.56, Variance: 69.84, RMSD: 8.36, Standard deviation (unbiased): 8.45
12:
Arithmetic mean: 32.63, Median: 30.00, Mode: [47, 24]
Absolute deviation: 10.06, Variance: 141.07, RMSD: 11.88, Standard deviation (unbiased): 12.20
13:
Arithmetic mean: 29.80, Median: 28.50, Mode: 22
Absolute deviation: 6.80, Variance: 57.76, RMSD: 7.60, Standard deviation (unbiased): 8.01
14:
Arithmetic mean: 28.75, Median: 30.50, Mode: [18, 36, 30, 31]
Absolute deviation: 5.38, Variance: 43.69, RMSD: 6.61, Standard deviation (unbiased): 7.63
15:
Arithmetic mean: 31.50, Median: 31.50, Mode: [37, 26]
Absolute deviation: 5.50, Variance: 30.25, RMSD: 5.50, Standard deviation (unbiased): 7.78
16:
Arithmetic mean: 33.75, Median: 34.00, Mode: 37
Absolute deviation: 3.25, Variance: 10.69, RMSD: 3.27, Standard deviation (unbiased): 3.77
17:
Arithmetic mean: 34.14, Median: 32.00, Mode: 29
Absolute deviation: 9.10, Variance: 131.61, RMSD: 11.47, Standard deviation (unbiased): 11.49
18:
Arithmetic mean: 30.56, Median: 29.00, Mode: 24
Absolute deviation: 7.44, Variance: 93.06, RMSD: 9.65, Standard deviation (unbiased): 9.65
19:
Arithmetic mean: 30.98, Median: 30.00, Mode: 25
Absolute deviation: 6.63, Variance: 66.84, RMSD: 8.18, Standard deviation (unbiased): 8.18
20:
Arithmetic mean: 30.60, Median: 30.00, Mode: 27
Absolute deviation: 6.09, Variance: 55.80, RMSD: 7.47, Standard deviation (unbiased): 7.47
21:
Arithmetic mean: 28.09, Median: 27.50, Mode: 25
Absolute deviation: 4.60, Variance: 29.90, RMSD: 5.47, Standard deviation (unbiased): 5.56

Father-son, by centuries:
11:
Arithmetic mean: 31.33, Median: 29.00, Mode: 23
Absolute deviation: 6.80, Variance: 67.02, RMSD: 8.19, Standard deviation (unbiased): 8.47
12:
Arithmetic mean: 39.17, Median: 38.00, Mode: [32, 49, 53, 37, 39, 25]
Absolute deviation: 7.89, Variance: 90.81, RMSD: 9.53, Standard deviation (unbiased): 10.44
13:
Arithmetic mean: 30.50, Median: 28.50, Mode: 22
Absolute deviation: 7.12, Variance: 60.75, RMSD: 7.79, Standard deviation (unbiased): 8.33
14:
Arithmetic mean: 30.50, Median: 30.50, Mode: [30, 31]
Absolute deviation: 0.50, Variance: 0.25, RMSD: 0.50, Standard deviation (unbiased): 0.71
16:
Arithmetic mean: 33.50, Median: 33.50, Mode: [37, 30]
Absolute deviation: 3.50, Variance: 12.25, RMSD: 3.50, Standard deviation (unbiased): 4.95
17:
Arithmetic mean: 35.35, Median: 33.00, Mode: 42
Absolute deviation: 9.27, Variance: 138.82, RMSD: 11.78, Standard deviation (unbiased): 11.84
18:
Arithmetic mean: 32.38, Median: 31.00, Mode: 30
Absolute deviation: 7.81, Variance: 103.23, RMSD: 10.16, Standard deviation (unbiased): 10.16
19:
Arithmetic mean: 32.78, Median: 32.00, Mode: 30
Absolute deviation: 6.83, Variance: 70.29, RMSD: 8.38, Standard deviation (unbiased): 8.38
20:
Arithmetic mean: 32.23, Median: 31.00, Mode: 28
Absolute deviation: 6.28, Variance: 60.01, RMSD: 7.75, Standard deviation (unbiased): 7.75
21:
Arithmetic mean: 29.27, Median: 28.00, Mode: 25
Absolute deviation: 5.39, Variance: 37.47, RMSD: 6.12, Standard deviation (unbiased): 6.42

Mother-daughter, by centuries:
11:
Arithmetic mean: 25.29, Median: 25.00, Mode: [20, 30]
Absolute deviation: 3.76, Variance: 17.06, RMSD: 4.13, Standard deviation (unbiased): 4.46
12:
Arithmetic mean: 25.50, Median: 25.50, Mode: [24, 27]
Absolute deviation: 1.50, Variance: 2.25, RMSD: 1.50, Standard deviation (unbiased): 2.12
17:
Arithmetic mean: 34.11, Median: 31.00, Mode: 25
Absolute deviation: 8.42, Variance: 93.36, RMSD: 9.66, Standard deviation (unbiased): 9.85
18:
Arithmetic mean: 28.54, Median: 27.00, Mode: 23
Absolute deviation: 6.79, Variance: 75.99, RMSD: 8.72, Standard deviation (unbiased): 8.72
19:
Arithmetic mean: 29.02, Median: 28.00, Mode: [22, 24]
Absolute deviation: 6.11, Variance: 55.44, RMSD: 7.45, Standard deviation (unbiased): 7.45
20:
Arithmetic mean: 28.86, Median: 28.00, Mode: 26
Absolute deviation: 5.64, Variance: 45.70, RMSD: 6.76, Standard deviation (unbiased): 6.76
21:
Arithmetic mean: 26.40, Median: 26.00, Mode: 26
Absolute deviation: 1.04, Variance: 1.84, RMSD: 1.36, Standard deviation (unbiased): 1.52

Оффлайн gecube_ru

  • Сообщений: 1418
  • Страна: hu
  • Рейтинг +264/-6
  • Незнайка на Луне
  • Y-ДНК: I-A6397 -> I-FGC79161
  • мтДНК: V7a1?
Чисто гипотетически - да, возможно, могу взяться.
Основная моя специальность программист (читай - кодер). Так получилось, что работаю по смежной - сисадмином. Но 100% результат не могу обещать (очень много факторов, включая большую загрузку по основной работе).

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Чисто гипотетически - да, возможно, могу взяться.
Основная моя специальность программист (читай - кодер). Так получилось, что работаю по смежной - сисадмином. Но 100% результат не могу обещать (очень много факторов, включая большую загрузку по основной работе).

Никто не гонит. Только, если в охотку. Чиста, мозгами пошуршать.   :)

Если надумаете, то сначала надо разобраться со спецификацией формата ГЕДКОМ вообще и версией (самой продвинутой, почитай) от Древа Жизни.
 
Подойдут ли Вам ранее написанные блоки, или проще, чем разбираться - написать с нуля самому. Тоже обдумаете.

Так представляется, есть какая-то читалка анализируемого ГЕДКОМ файла. Потом к ней одна за одной фички добавляются.

Ну, и учитывая программисткую отсталость генеалогов  :-X , нужен какой-то интерфейсик, а не просто командная строка.

Оффлайн rLin

  • Сообщений: 769
  • Страна: ru
  • Рейтинг +269/-0
  • Калуга
  • Y-ДНК: R1a1a-Z92 (Y569+)
  • мтДНК: T2b2-С16304T!
Насколько я могу судить, все модификации файлов GEDCOM в пределах одной старшей версии (сейчас это что-то в районе 5.x) по внутренней сути не отличаются, в них просто добавляются новые поля, например, есть ли инопланетная ДНК и т.д. Так что можно брать просто спецификацию на GEDCOM 5.5 или любой тестовый файл с myheritage или FTDNA. Так что проблем с версией GEDCOM скорее всего не будет, главный вопрос в реализации тех алгоритмов, которые нужны.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Насколько я могу судить, все модификации файлов GEDCOM в пределах одной старшей версии (сейчас это что-то в районе 5.x) по внутренней сути не отличаются, в них просто добавляются новые поля, например, есть ли инопланетная ДНК и т.д. Так что можно брать просто спецификацию на GEDCOM 5.5 или любой тестовый файл с myheritage или FTDNA. Так что проблем с версией GEDCOM скорее всего не будет, главный вопрос в реализации тех алгоритмов, которые нужны.

Кстати, повторю предложение использовать открытый код утилиты от Anode, как базу.

Хотя часто слышал мнение, что проще написать новые сотни строк, чем разбираться в уже существующих.   :)

Ну, и потом не понятно, будет ли использоваться Java, как рабочий язык.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.