АвторТема: Поколенные интервалы Гаврилова-Темоша  (Прочитано 38624 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #45 : 16 Декабрь 2011, 05:00:36 »
Добавил в статистику (несколько строк кода, ничего не стоило):
Absolute deviation - на русском среднее отклонение, т.е. сумма абсолютных значений, делённых на N;
Variance - дисперсия, т.е. сумма квадратов, делённых на N;
RMSD - среднеквадратичное отклонение, т.е. корень из предыдущего;
Standard deviation (unbiased) - стандартное отклонение, т.е. несмещённое относительно матожидания, то же что и предыдущее, только делённое на N-1.

Запуская имеющийся у меня файл:
Цитировать
------------------------
 Statistics report
------------------------

Total persons: 33729
Males total: 17517
Females total: 16212

Pairs Father-Son total: 13935
   among them with good dates (used in caluculations below): 11259
Pairs Father-Daughter total: 11455
   among them with good dates (used in caluculations below): 9827
Pairs Mother-Son total: 12191
   among them with good dates (used in caluculations below): 10070
Pairs Mother-Daughter total: 10903
   among them with good dates (used in caluculations below): 9064


*** Generational interval ***

   Mother-child:
      Arithmetic mean: 28.62
      Absolute deviation: 6.31, Variance: 61.08, RMSD: 7.82, Standard deviation (unbiased): 7.82
      Median: 28.00
      Mode: 24
   Mother-daughter:
      Arithmetic mean: 28.57
      Absolute deviation: 6.27, Variance: 59.80, RMSD: 7.73, Standard deviation (unbiased): 7.73
      Median: 28.00
      Mode: 22
   Father-child:
      Arithmetic mean: 32.43
      Absolute deviation: 7.05, Variance: 77.66, RMSD: 8.81, Standard deviation (unbiased): 8.81
      Median: 31.00
      Mode: 28
   Father-son:
      Arithmetic mean: 32.43
      Absolute deviation: 7.07, Variance: 78.09, RMSD: 8.84, Standard deviation (unbiased): 8.84
      Median: 31.00
      Mode: 27
   All:
      Arithmetic mean: 30.62
      Absolute deviation: 6.85, Variance: 73.39, RMSD: 8.57, Standard deviation (unbiased): 8.57
      Median: 30.00
      Mode: 25

   All, by centuries:
      17:
         Arithmetic mean: 34.50
         Absolute deviation: 9.27, Variance: 140.85, RMSD: 11.87, Standard deviation (unbiased): 11.89
         Median: 32.00
         Mode: 29
      18:
         Arithmetic mean: 30.22
         Absolute deviation: 7.43, Variance: 93.12, RMSD: 9.65, Standard deviation (unbiased): 9.65
         Median: 29.00
         Mode: 24
      19:
         Arithmetic mean: 30.65
         Absolute deviation: 6.73, Variance: 68.94, RMSD: 8.30, Standard deviation (unbiased): 8.30
         Median: 30.00
         Mode: 25
      20:
         Arithmetic mean: 30.91
         Absolute deviation: 6.36, Variance: 61.26, RMSD: 7.83, Standard deviation (unbiased): 7.83
         Median: 30.00
         Mode: 28

   Father-son, by centuries:
      17:
         Arithmetic mean: 35.42
         Absolute deviation: 9.21, Variance: 132.77, RMSD: 11.52, Standard deviation (unbiased): 11.60
         Median: 33.50
         Mode: 27
      18:
         Arithmetic mean: 31.77
         Absolute deviation: 7.62, Variance: 97.55, RMSD: 9.88, Standard deviation (unbiased): 9.88
         Median: 30.00
         Mode: 28
      19:
         Arithmetic mean: 32.60
         Absolute deviation: 6.91, Variance: 72.01, RMSD: 8.49, Standard deviation (unbiased): 8.49
         Median: 32.00
         Mode: 27
      20:
         Arithmetic mean: 32.65
         Absolute deviation: 6.57, Variance: 66.57, RMSD: 8.16, Standard deviation (unbiased): 8.16
         Median: 31.00
         Mode: [27, 29, 28, 31]

   Mother-daughter, by centuries:
      17:
         Arithmetic mean: 34.95
         Absolute deviation: 8.77, Variance: 104.04, RMSD: 10.20, Standard deviation (unbiased): 10.44
         Median: 31.50
         Mode: [53, 25, 29]
      18:
         Arithmetic mean: 28.52
         Absolute deviation: 7.05, Variance: 82.39, RMSD: 9.08, Standard deviation (unbiased): 9.08
         Median: 27.00
         Mode: 21
      19:
         Arithmetic mean: 28.48
         Absolute deviation: 6.16, Variance: 56.27, RMSD: 7.50, Standard deviation (unbiased): 7.50
         Median: 28.00
         Mode: 22
      20:
         Arithmetic mean: 28.96
         Absolute deviation: 5.83, Variance: 48.20, RMSD: 6.94, Standard deviation (unbiased): 6.95
         Median: 28.00
         Mode: 26

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #46 : 16 Декабрь 2011, 08:46:47 »
Можно ещё дождаться более качественных (вычищенных) данных и попробовать запустить с ними.

Думаю, этот вариант.
Потому как перекосы - явно в одну сторону (это я про ошибку введения даты).
Сейчас помимо ввода данных, также делают выверку наиболее очевидных ошибок. Предлагаю подождать до начала января. а потом сделать прогоны на подправленной версии.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #47 : 19 Декабрь 2011, 04:54:06 »
Обновлённая статистика:


------------------------
 Statistics report
------------------------

Total persons: 35049
Males total: 18190
Females total: 16859

Pairs Father-Son total: 14498
   among them with good dates (used in caluculations below): 11873
Pairs Father-Daughter total: 11973
   among them with good dates (used in caluculations below): 10382
Pairs Mother-Son total: 12746
   among them with good dates (used in caluculations below): 10759
Pairs Mother-Daughter total: 11450
   among them with good dates (used in caluculations below): 9687


*** Generational interval ***

   Mother-child:
      Arithmetic mean: 28.70
      Median: 28.00
      Mode: [22, 25]
   Mother-daughter:
      Arithmetic mean: 28.63
      Median: 28.00
      Mode: 22
   Father-child:
      Arithmetic mean: 32.43
      Median: 31.00
      Mode: 28
   Father-son:
      Arithmetic mean: 32.42
      Median: 31.00
      Mode: 28
   All:
      Arithmetic mean: 30.64
      Median: 30.00
      Mode: 25

   All, by centuries:
      17:
         Arithmetic mean: 34.52
         Median: 32.00
         Mode: 29
      18:
         Arithmetic mean: 30.21
         Median: 29.00
         Mode: 24
      19:
         Arithmetic mean: 30.69
         Median: 30.00
         Mode: 25
      20:
         Arithmetic mean: 30.84
         Median: 30.00
         Mode: 27
      21:
         Arithmetic mean: 27.53
         Median: 26.00
         Mode: [33, 25]

   Father-son, by centuries:
      17:
         Arithmetic mean: 35.34
         Median: 33.50
         Mode: 27
      18:
         Arithmetic mean: 31.68
         Median: 30.00
         Mode: 28
      19:
         Arithmetic mean: 32.60
         Median: 32.00
         Mode: 31
      20:
         Arithmetic mean: 32.67
         Median: 32.00
         Mode: 28
      21:
         Arithmetic mean: 28.17
         Median: 26.00
         Mode: 25

   Mother-daughter, by centuries:
      17:
         Arithmetic mean: 34.95
         Median: 31.50
         Mode: [53, 25, 29]
      18:
         Arithmetic mean: 28.56
         Median: 27.00
         Mode: 21
      19:
         Arithmetic mean: 28.57
         Median: 28.00
         Mode: 22
      20:
         Arithmetic mean: 28.83
         Median: 28.00
         Mode: 26
      21:
         Arithmetic mean: 26.50
         Median: 26.00
         Mode: 26

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #48 : 21 Декабрь 2011, 21:09:15 »
Хотел сейчас с ходу проверить вот эту аномалию:

Про ошибки ввода.
Вот, скажем, имеем,
82
   @I30237@ Олимпиада Наумовна /Проценко (Дробот)/ (1 AUG 1884).
Т.е. ребёнок родился в 1966 году.

Почти уверен, что правильная дата рождения 1906 год.

Сейчас проверю.

Выяснилась интересная вещь, у Олимпиады Наумовны вообще нет детей.
Какой-то глич.

*** Сейчас отошлю последнюю версию файла Гедком.

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #49 : 21 Декабрь 2011, 23:47:53 »
Хотел сейчас с ходу проверить вот эту аномалию:

Про ошибки ввода.
Вот, скажем, имеем,
82
   @I30237@ Олимпиада Наумовна /Проценко (Дробот)/ (1 AUG 1884).
Т.е. ребёнок родился в 1966 году.

Почти уверен, что правильная дата рождения 1906 год.

Сейчас проверю.

Выяснилась интересная вещь, у Олимпиады Наумовны вообще нет детей.
Какой-то глич.

*** Сейчас отошлю последнюю версию файла Гедком.


Отослал Вам мейл, всё в порядке. 82 года - это возраст родителя на момент её (Олимпиады Наумовны) рождения.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #50 : 22 Декабрь 2011, 01:14:39 »
Понятно.
:)
Я думал, что это возраст персоны на момент рождения ребёнка. А не сам аномальный ребёнок.

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #51 : 22 Декабрь 2011, 03:11:51 »
Да, было легче пройти по всем персонам и проверить обоих родителей, которых у каждого только два, чем идти по всем семьям и детям каждой персоны, ведь детей может быть сколько угодно.
Кстати, сейчас в файле более 35 тыс. персон. Круто.

Запустил программу с последним гедкомом. Статистика, как и следовало ожидать, сильно не изменилась.
Итак, поколенные интервалы на сегодня:
32.4 - для пар отец-сын, и 28.6 - для пар мать-дочь.
Или округляя до целых: 32 и 29 соответственно.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #52 : 22 Декабрь 2011, 03:16:23 »
Да, статистика прежняя.
На сайте Древа Жизни (я там пропихиваю и нахваливаю Ваш труд) получены сходные результаты по другому Гедком файлу в 6.5 тысяч человек.

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #53 : 22 Декабрь 2011, 03:20:43 »
Числа выше не должны меняться при увеличении объёма выборки.

Оценка стандартной ошибки определения среднего по популяции (Arithmetic mean):

<стандартное отклонение популяции>=<стандартное отклонение выборки>/SQRT(объём выборки)

Используя Standard deviation (8.84 - для пар отец-сын, 7.73 - для пар мать-дочь) и объёмы выборок приведённые выше, получим для отклонения среднего выборки от среднего популяции:

пары отец-сын:
8.84/SQRT(11873)=0.08
пары мать-дочь:
7.73/SQRT(9687)=0.08

т.е. значительно менее года в обоих случаях.

Arithmetic mean всей популяции пар отец-сын будет с вероятностью 95% в пределах двух стандартных отклонений от среднего выборки:
Для пар отец-сын: 32.27-32.59 лет (32.43+-0.16)
Для пар мать-дочь: 28.41-28.73 лет (28.57+-0.16)

Т.е. округляя до целых - 32-33 года для пар сын-отец и 28-29 лет - для пар мать-дочь даже для четырёх сигм.

Эти результаты, похоже, окончательные. Раздельное исследование сословий, нахождение распределений итд - это уже будут другие задачи. А задача, указанная в начале темы (поколенный интервал на основе Вашего гедкома - для конкретной популяции) похоже выполнена.

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #54 : 22 Декабрь 2011, 03:23:55 »
На сайте Древа Жизни (я там пропихиваю и нахваливаю Ваш труд) получены сходные результаты по другому Гедком файлу в 6.5 тысяч человек.

спасибо :)


Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #55 : 22 Декабрь 2011, 03:25:30 »
Для расчета TMRCA в Y-Utility лучше брать значение mode или median? Вообще говоря это у неоднократно обсужденный и оставшийся пока без весомых аргументов вопрос - 25 или 30?

Рассмотрим цепочку 4х людей с возрастами на момент рождения ребёнка: 16,16,28,100

мода: 16
медиана: 22
среднее: 40

Нас в поколенных интервалах что интересует? Конечно, средний возраст: (16+16+28+100)/4=40 лет, а не медиана, которая бы дала всего 22*4=88 лет, т.е. заниженный возраст предка.

Этот искуственный пример, кстати, похож на распределение, получающееся на реальных данных: мода меньше чем медиана и медиана меньше чем среднее. Т.е. что-то типа log-normal распределения.

Так что исходя из статистики по Рязанской области последних нескольких веков (а метрических данных тысячелетней давности у нас нет) - то 32.5 года. А для мито (женщин) - 28.5 лет.
« Последнее редактирование: 22 Декабрь 2011, 03:52:17 от Anode »

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #56 : 24 Декабрь 2011, 03:07:37 »
Обновлённые данные:


------------------------
 Statistics report
------------------------

Total persons: 35244
Males total: 18287
Females total: 16957

Pairs Father-Son total: 14574
   among them with good dates (used in caluculations below): 11941
Pairs Father-Daughter total: 12038
   among them with good dates (used in caluculations below): 10441
Pairs Mother-Son total: 12821
   among them with good dates (used in caluculations below): 10830
Pairs Mother-Daughter total: 11509
   among them with good dates (used in caluculations below): 9750


*** Generational interval ***

   Mother-child:
      Arithmetic mean: 28.70, Median: 28.00, Mode: 25
      Absolute deviation: 6.26, Variance: 60.03, RMSD: 7.75, Standard deviation (unbiased): 7.75
   Mother-daughter:
      Arithmetic mean: 28.63, Median: 28.00, Mode: 22
      Absolute deviation: 6.23, Variance: 58.74, RMSD: 7.66, Standard deviation (unbiased): 7.66
   Father-child:
      Arithmetic mean: 32.42, Median: 31.00, Mode: 28
      Absolute deviation: 7.01, Variance: 76.32, RMSD: 8.74, Standard deviation (unbiased): 8.74
   Father-son:
      Arithmetic mean: 32.41, Median: 31.00, Mode: 28
      Absolute deviation: 7.02, Variance: 76.64, RMSD: 8.75, Standard deviation (unbiased): 8.75
   All:
      Arithmetic mean: 30.64, Median: 30.00, Mode: 25
      Absolute deviation: 6.79, Variance: 71.97, RMSD: 8.48, Standard deviation (unbiased): 8.48

   All, by centuries:
      17:
         Arithmetic mean: 34.52, Median: 32.00, Mode: 29
         Absolute deviation: 9.26, Variance: 140.06, RMSD: 11.83, Standard deviation (unbiased): 11.86
      18:
         Arithmetic mean: 30.23, Median: 29.00, Mode: 24
         Absolute deviation: 7.44, Variance: 93.31, RMSD: 9.66, Standard deviation (unbiased): 9.66
      19:
         Arithmetic mean: 30.68, Median: 30.00, Mode: 25
         Absolute deviation: 6.71, Variance: 68.29, RMSD: 8.26, Standard deviation (unbiased): 8.26
      20:
         Arithmetic mean: 30.83, Median: 30.00, Mode: 27
         Absolute deviation: 6.25, Variance: 58.97, RMSD: 7.68, Standard deviation (unbiased): 7.68
      21:
         Arithmetic mean: 27.53, Median: 26.00, Mode: [33, 25]
         Absolute deviation: 3.56, Variance: 17.19, RMSD: 4.15, Standard deviation (unbiased): 4.27

   Father-son, by centuries:
      17:
         Arithmetic mean: 35.34, Median: 33.50, Mode: 27
         Absolute deviation: 9.27, Variance: 133.32, RMSD: 11.55, Standard deviation (unbiased): 11.62
      18:
         Arithmetic mean: 31.68, Median: 30.00, Mode: 28
         Absolute deviation: 7.64, Variance: 97.86, RMSD: 9.89, Standard deviation (unbiased): 9.89
      19:
         Arithmetic mean: 32.58, Median: 32.00, Mode: 27
         Absolute deviation: 6.88, Variance: 71.15, RMSD: 8.43, Standard deviation (unbiased): 8.44
      20:
         Arithmetic mean: 32.66, Median: 32.00, Mode: 28
         Absolute deviation: 6.46, Variance: 63.75, RMSD: 7.98, Standard deviation (unbiased): 7.99
      21:
         Arithmetic mean: 28.17, Median: 26.00, Mode: 25
         Absolute deviation: 4.22, Variance: 22.14, RMSD: 4.71, Standard deviation (unbiased): 5.15

   Mother-daughter, by centuries:
      17:
         Arithmetic mean: 34.95, Median: 31.50, Mode: [53, 25, 29]
         Absolute deviation: 8.77, Variance: 104.04, RMSD: 10.20, Standard deviation (unbiased): 10.44
      18:
         Arithmetic mean: 28.59, Median: 27.00, Mode: 21
         Absolute deviation: 7.02, Variance: 81.29, RMSD: 9.02, Standard deviation (unbiased): 9.02
      19:
         Arithmetic mean: 28.56, Median: 28.00, Mode: 22
         Absolute deviation: 6.16, Variance: 56.27, RMSD: 7.50, Standard deviation (unbiased): 7.50
      20:
         Arithmetic mean: 28.83, Median: 28.00, Mode: 25
         Absolute deviation: 5.75, Variance: 46.98, RMSD: 6.85, Standard deviation (unbiased): 6.86
      21:
         Arithmetic mean: 26.50, Median: 26.00, Mode: 26
         Absolute deviation: 1.25, Variance: 2.25, RMSD: 1.50, Standard deviation (unbiased): 1.73

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #57 : 24 Декабрь 2011, 03:10:04 »
Нас всего более интересует
Father-son: 
      Arithmetic mean: 32.41, Median: 31.00, Mode: 28

Тут среднее поплыло всего на одну сотую после добавления 200 человек и правки аномалий.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #58 : 24 Декабрь 2011, 03:12:07 »
По парам мать-дочь всё без изменений.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #59 : 18 Март 2012, 04:01:40 »
Последние обновления:

Total persons: 36792
Males total: 18960
Females total: 17832

Pairs Father-Son total: 15094
   among them with good dates (used in caluculations below): 12495
Pairs Mother-Daughter total: 12159
   among them with good dates (used in caluculations below): 10550

Mother-daughter:
      Arithmetic mean: 28.79, Median: 28.00, Mode: 22
Father-son:
      Arithmetic mean: 32.47, Median: 31.00, Mode: 28

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.