АвторТема: Поколенные интервалы Гаврилова-Темоша  (Прочитано 41684 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36935
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Постановка задачи:
На основании суммарного файла формата Гедком по двум проектам, Центрально-Русскому и Украинскому вычислить поколенные интервалы для мужчин и для женщин.

Ход разработки программы изложен в этой ветви.

А теперь собственно результаты (промежуточные):

 Statistics report
------------------------

Total persons: 33729
Males total: 17517
Females total: 16212

Pairs Father-Son total: 13935
    among them with good dates (used in caluculations below): 11291
Pairs Father-Daughter total: 11455
    among them with good dates (used in caluculations below): 9840
Pairs Mother-Son total: 12191
    among them with good dates (used in caluculations below): 10165
Pairs Mother-Daughter total: 10903
    among them with good dates (used in caluculations below): 9112


*** Generational interval ***

    Arithmetic mean:
        Women: 28.48
        Men: 32.39
        All: 30.53
    Median:
        Women: 27.55
        Men: 31.13
        All: 29.48
    Mode:
        Women: 25
        Men: 28
        All: 26

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36935
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #1 : 22 Ноябрь 2011, 09:15:25 »
Сразу вагон и полная тележка комментариев.

Первое: медианный вариант выглядит явно криво.

Что такое медиана?

Это некоторое значение, расположенное строго по середине выборки.

Если есть выборка 1 3 3 7 11 11 24, то медиана равна 7.

Если имеем выборку 1 3 3 7 9 11 11 24, то обычно медиана тоже равна 7.
Реже (7 + 9) / 2 = 8. Потому как это может быть дробное или вообще некое запрещённое (несуществующее) значение.

Цифры:
Median:
        Women: 27.55
        Men: 31.13
        All: 29.48
могут быть получены только в том случае, если расчёт поколенного интервала вёлся не по целым годам (на чём я настаивал и продолжаю настаивать), но по полной дате.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36935
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #2 : 22 Ноябрь 2011, 09:20:55 »
Далее, в расчётах у Соренсона:

По предварительным прикидкам поколенные интервалы будут высчитаны где-то на 25 тысячах пар родитель-ребёнок (отец-сын и мать-ребёнок).
Для сравнения у Соренсона:

Number of father/son pairs:   129 558

Number of mother/child pairs:   218 135

заметил явную логическую неувязку.

Если мы считаем пары отец-сын, то логичным представляется считать также и пары мать-дочь, а не мать-ребёнок.

Почему?

Потому как, если средняя глубина фамильной линии составляет 10 поколений, то случай don't care, когда мито присутствует и у мужчин и у женщин охватывает только 10% всей базы.

Если же поколенный интервал строго трактовать как средний, медианный и модальный детородные возраста мужчин и женщин, то логичным представляется обсчитать как отец-ребёнок, так и мать-ребёнок.


Резюмирую:

Необходимо произвести один обсчёт по схеме отец-ребёнок, мать-ребёнок и второй обсчёт по схеме отец-сын, мать-дочь.
« Последнее редактирование: 22 Ноябрь 2011, 09:28:23 от Mich Glitch »

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36935
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #3 : 22 Ноябрь 2011, 09:31:34 »
По общему количеству пар.
Имеем около десяти процентов от того, что Соренсон собрал в течении многих лет имея собственную лабораторию и щедрое финансирование от не самой бедной церкви (любопытным предлагаю погуглить главный храм мормонов в Солт-Лейке - тот ещё домик!).

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #4 : 22 Ноябрь 2011, 09:33:01 »
Сразу вагон и полная тележка комментариев.

Первое: медианный вариант выглядит явно криво.

Что такое медиана?

Это некоторое значение, расположенное строго по середине выборки.

Если есть выборка 1 3 3 7 11 11 24, то медиана равна 7.

Если имеем выборку 1 3 3 7 9 11 11 24, то обычно медиана тоже равна 7.
Реже (7 + 9) / 2 = 8. Потому как это может быть дробное или вообще некое запрещённое (несуществующее) значение.

Цифры:
Median:
        Women: 27.55
        Men: 31.13
        All: 29.48
могут быть получены только в том случае, если расчёт поколенного интервала вёлся не по целым годам (на чём я настаивал и продолжаю настаивать), но по полной дате.

Я знаю - что такое медиана (учил когда-то) :)

Как я сказал в предыдущем топике - "Мопед не мойДанные не мои - я только разместил объявупосчитал"(С)

Счёт там очень простой - ошибку просто негде допустить. Сортируется массив (для каждого набора пар: пока их 3 набора выводилось) и в случае нечётного количества в массиве - берётся центральный элемент как есть, а если количество элементов чётное - берём 2 центральных. Можно вывести их оба. Я сложил их и разделил на 2. Так тоже делают.
В отличие от моды, где необходимы дискретные значения (приведение к целым) - медиана этого не требует. И для более точной медианы я не округлял (перед вычислением медианы).

Если хотите медиану по полным годам - не проблема округлить, только не понимаю - зачем. Потеряем точность. и в случае пары в центре - будет всегда какоя-нибудь цифра с .5 на конце.

Надо спросить статистиков - насчёт дробной медианы. Почему надо обязательно целую? (это же не мода!)
« Последнее редактирование: 22 Ноябрь 2011, 09:41:23 от Anode »

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36935
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #5 : 22 Ноябрь 2011, 09:35:31 »
Ну, и собственно результаты.
Имеем среднее значение 32.39 года для пары отец-ребёнок у Anode и Mich Glitch против 32.5 года для пары отец-сын у Соренсона.
Думаю, пересчёт по вышепредложенным схемам обозначит лишь небольшие флюктуации.

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #6 : 22 Ноябрь 2011, 09:37:06 »

Резюмирую:

Необходимо произвести один обсчёт по схеме отец-ребёнок, мать-ребёнок и второй обсчёт по схеме отец-сын, мать-дочь.

ok,

отец-ребёнок, мать-ребёнок уже есть, добавим тогда туда в будущем и пары отец-сын, мать-дочь

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36935
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #7 : 22 Ноябрь 2011, 09:39:23 »
Если хотите медиану по полным годам - не проблема округлить, только не понимаю - зачем.

Речь не идёт о медиане по полным годам.
Я высказался в том духе, что по большому массиву данных (какой мы имеем) лучше использовать только годы (без месяцев и дней).
Потому как много неполных дат.
Можно неполную дату полагать 1 июля.
А можно (и нужно, Соренсон тому свидетель! :) ) использовать только год.

Если бы Вы использовали только годы, то в 99% случаев (на самом деле ещё выше), получили либо целое значение, либо с дробной частью .5.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36935
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #8 : 22 Ноябрь 2011, 09:40:51 »

Резюмирую:

Необходимо произвести один обсчёт по схеме отец-ребёнок, мать-ребёнок и второй обсчёт по схеме отец-сын, мать-дочь.

ok,

отец-ребёнок, мать-ребёнок уже есть, добавим тогда туда в будущем и пары отец-сын, мать-дочь

Думаю, отличие будет несущественным.
Ведь вероятность рождения мальчиков и девочек примерно 50 на 50.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36935
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #9 : 22 Ноябрь 2011, 09:44:30 »
По женщинам.
Имеем 27.55 года для пары мать-ребёнок у нас, против 27.9 года для пары мать-ребёнок у Соренсона.

Учение Маркса Соренсона побеждает, потому что оно верно. ©

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #10 : 22 Ноябрь 2011, 09:51:10 »
Если хотите медиану по полным годам - не проблема округлить, только не понимаю - зачем.

Речь не идёт о медиане по полным годам.
Я высказался в том духе, что по большому массиву данных (какой мы имеем) лучше использовать только годы (без месяцев и дней).
Потому как много неполных дат.
Можно неполную дату полагать 1 июля.
А можно (и нужно, Соренсон тому свидетель! :) ) использовать только год.

Если бы Вы использовали только годы, то в 99% случаев (на самом деле ещё выше), получили либо целое значение, либо с дробной частью .5.

Да, Вы правы - в данной версии я считаю с теми годами - которые приходят в гедкоме, т.е. с точными датами - когда они есть и с приблизительными (1 Июля) - когда дан только год. Но без BEF/ABT/AFT/EST, записи с которыми игнорируются. Можно поменять политику, и начать считать всех (даже точные) - на 1 Июля. Чтобы не было всяких там биасов. Согласен.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36935
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #11 : 22 Ноябрь 2011, 09:52:12 »
Ну, и последнее.
Я полагаю, что данный поколенный интервал хорош для российского генеалогического интервала.
Напомню, генеалогическим интервалом я называю такой временной отрезок, когда большинство генеалогий можно вывести документально.
По России генеалогический интервал проходит где-то по первой четверти 17 века.

Исторические реконструкции, т.е. попытки заглянуть на многие сотни и даже тысячи лет вглубь веков - это отдельная песнь.

Больший поколенный интервал у Соренсона я склонен списывать не на отличия западноевропейского и российского семейных укладов, но на меньшую среднюю глубину обработанных генеалогий у Соренсона.

Иными словами, предполагаю наличие трэда по уменьшению поколенного интервала при движении вглубь веков.

Короче говоря, имеет смысл считать при больших генетических дистанциях (отдалённых ВБОПах) усреднённых 30 лет по мальчикам и 25 лет по девочкам. (Что, собственно, я последних года три и делаю.)

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36935
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #12 : 22 Ноябрь 2011, 09:56:17 »
Можно поменять политику, и начать считать всех (даже точные) - на 1 Июля. Чтобы не было всяких там биасов. Согласен.

И опять не так.
Нужно даже у точных дат брать только год.
Это даст лучший результат, нежели обсчёты по точным датам + 1 июля по одним только годам.

Если брать только год, то исходным предположением является то, что рождения детей не имеет каких-то выраженных максимумов в отдельные месяцы. А так оно примерно и есть. Несмотря даже на прослеживаемую неравномерность заключения браков.

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #13 : 22 Ноябрь 2011, 09:58:04 »
По женщинам.
Имеем 27.55 года для пары мать-ребёнок у нас, против 27.9 года для пары мать-ребёнок у Соренсона.

Учение Маркса Соренсона побеждает, потому что оно верно. ©

т.е. с Соренсоном у нас разница в 1% для женщин и 0.3% для мужчин:
(27.9-27.55)/27.9 = 1%
(32.5 - 32.39)/32.5 = 0.3%
« Последнее редактирование: 22 Ноябрь 2011, 10:34:01 от Anode »

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #14 : 22 Ноябрь 2011, 10:10:18 »
Можно поменять политику, и начать считать всех (даже точные) - на 1 Июля. Чтобы не было всяких там биасов. Согласен.

И опять не так.
Нужно даже у точных дат брать только год.
Это даст лучший результат, нежели обсчёты по точным датам + 1 июля по одним только годам.

Если брать только год, то исходным предположением является то, что рождения детей не имеет каких-то выраженных максимумов в отдельные месяцы. А так оно примерно и есть. Несмотря даже на прослеживаемую неравномерность заключения браков.

Я имел в виду именно у _всех_ - 1 Июля. И дата не важна - всё равно берутся разности. Т.е. любое единое соглашение (1 июля либо 1 января либо 31 декабря) - приведёт к одному результату (если у всех одинаково).
Но если вообще брать только чистые годы - то технически это несравнимо легче (код можно сильно упростить). Выкинуть календари, счёт високосных лет итд.
ок, вырежу в следующей версии все точные даты (только из модуля статистики), и вместо дат - будет только одно число года + операции с целыми (красотища).

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.