АвторТема: Поколенные интервалы Гаврилова-Темоша  (Прочитано 38635 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #60 : 08 Апрель 2012, 02:24:26 »
Без изменений, после обсчёта новых пар:

Total persons: 37693
Males total: 19388
Females total: 18305

Pairs Father-Son total: 15401
   among them with good dates (used in caluculations below): 12746
Pairs Mother-Daughter total: 12492
   among them with good dates (used in caluculations below): 10786

Mother-daughter:
      Arithmetic mean: 28.79, Median: 28.00, Mode: 22
Father-son:
      Arithmetic mean: 32.47, Median: 31.00, Mode: 28

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #61 : 08 Апрель 2012, 20:26:10 »
Без изменений, после обсчёта новых пар:

Total persons: 37693
Males total: 19388
Females total: 18305

Pairs Father-Son total: 15401
   among them with good dates (used in caluculations below): 12746
Pairs Mother-Daughter total: 12492
   among them with good dates (used in caluculations below): 10786

Mother-daughter:
      Arithmetic mean: 28.79, Median: 28.00, Mode: 22
Father-son:
      Arithmetic mean: 32.47, Median: 31.00, Mode: 28
Хотим использовать Ваши с Anode данные (с соответствующей ссылкой, конечно) по средней длительности поколения в нашем варианте задачи вычисления ВБОП методом выборочных пар. Не могли бы Вы здесь дать кратенькие пояснения к полученной статистике: откуда получилось столько родителей, как вычислялась средняя длит. мужского поколения? По смешанной статистике более менее понятно (возраст матери на время рождения "среднего" ребенка).

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #62 : 08 Апрель 2012, 21:01:56 »
Не могли бы Вы здесь дать кратенькие пояснения к полученной статистике: откуда получилось столько родителей, как вычислялась средняя длит. мужского поколения? По смешанной статистике более менее понятно (возраст матери на время рождения "среднего" ребенка).

Никаких средних детей!
Взяли реальные генеалогии с 17-го по 21 века (моя сводная база по рязанщине и винничине).
Отобрали только тех персон, по которым имеются даты рождения.
Отобрали пары мать-дочь, мать-ребёнок, отец-сын, отец-ребёнок и т.д., и по каждому множеству пар сделали обсчёт (среднее, медианное, модальное значение возраста соответствующего родителя на момент рождения ребёнка).
Привожу значения только по парам отец-сын и мать-дочь. Так как именно эти поколенные интервалы нужны для обсчёта ВБОПов.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #63 : 08 Апрель 2012, 21:08:44 »
Если у трёх произвольных Иванов родились сыновья, когда им было 18, 19, 23, 25, 25, 26, 40, 42, 47, 48, 51, то имеем:
18+19+23+25+25+26+40+42+47+48+51 / 11 = среднее значение;
26 медианное значение;
25 модальное значение.

Только обсчёт для пар отец-сын сделан по 12746 значениям.

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #64 : 08 Апрель 2012, 23:16:54 »
Если у трёх произвольных Иванов родились сыновья, когда им было 18, 19, 23, 25, 25, 26, 40, 42, 47, 48, 51, то имеем:
18+19+23+25+25+26+40+42+47+48+51 / 11 = среднее значение;
26 медианное значение;
25 модальное значение.

Только обсчёт для пар отец-сын сделан по 12746 значениям.
18+19+23+25+25+26+40+42+47+48+51 / 11 =31.  Это мне понятно. А зачем нужны медианное и модальное значения?

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #65 : 08 Апрель 2012, 23:30:04 »
Плавно переходим к вопросу, что лучше:
- среднее арифметическое;
- медиана;
- модал.

:)

Почему при всех возможных значениях аллелей (скажем 12, 14, 15, 16, ... 23) с таким упорством копошатся с т.н. модальным гаплотипом, а не с целоисчислённым средним?  :o

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #66 : 08 Апрель 2012, 23:52:33 »
Почему при всех возможных значениях аллелей (скажем 12, 14, 15, 16, ... 23) с таким упорством копошатся с т.н. модальным гаплотипом, а не с целоисчислённым средним?  :o
Не знаю. По крайней мере для задачи нахождения ВБОП ни модальные, ни среднеарифметические, никакие другие вычисляемые гаплотипы не нужны. Вместе с тем, Метод выборочных пар оценкиВБОП дает оценку гаплотипа начального предка как среднеарифметическое (т.е., матожидание), но при том усреднение происходит по тем гаплотипам, которые образуют пары, общим начальным предком которых является истинный начальный предок. Мы с Дмитрием Адамовым показали, что такая оценка является несмещенной.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #67 : 09 Апрель 2012, 00:13:53 »
Просто известный факт из матстатистики, почему наряду с понятной средней величиной используются так же модалы и медианы.
Данные величины нужны для разновероятностных событий, а также в тех случаях, когда оценить событийную вероятность не представляется возможным.

Дабы не рассусоливать, просто сошлюсь на признанные авторитеты. Вот, к примеру,


Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #68 : 09 Апрель 2012, 00:21:30 »
Заметили?
Среднее, медиана, модал.
Всё по своему нужно.

По величинам:
Имеем среднее  32.47 у нас с Василием против 32.5 у Соренсона.
Медиана совпадает - 31 год.
Модал 28 у нас, против 26 у Соренсона.

Да, у Соренсона обработано в 10 раз больше пар. Зато у нас только российские и украинские. И не с Западной Африки, или Латинской Америки, или Монглоии включительно. Да и потом, средняя глубина генеалогий у нас больше.

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #69 : 09 Апрель 2012, 03:19:13 »
Почему при всех возможных значениях аллелей (скажем 12, 14, 15, 16, ... 23) с таким упорством копошатся с т.н. модальным гаплотипом, а не с целоисчислённым средним?  :o
Не знаю. По крайней мере для задачи нахождения ВБОП ни модальные, ни среднеарифметические, никакие другие вычисляемые гаплотипы не нужны. Вместе с тем, Метод выборочных пар оценкиВБОП дает оценку гаплотипа начального предка как среднеарифметическое (т.е., матожидание), но при том усреднение происходит по тем гаплотипам, которые образуют пары, общим начальным предком которых является истинный начальный предок. Мы с Дмитрием Адамовым показали, что такая оценка является несмещенной.

А матожидание же и есть среднее арифметическое. Разные названия одного и того же.

Для вычисления TMRCA нужно именно арифметическое среднее (mean), иначе получится заниженный возраст. Медиана и мода, видимо, нужны статистикам - как характеристики распределения, исследования его наклонённости, нормальности итд (я не спец - не знаю "кухню"). Для меня они просто статистики, характеристики, числа. Есть, например, эмпирические правила, типа правила Пирсона: median ≈ (2 × mean + mode)/3 для одномодальных распределений, близких нормальному.

Мне, кстати, не очень понятна природа возникновения второго пика у Соренсона (или падение рождаемости в 29 лет). Т.е. почему кривая не максимально гладкая, близкая нормальной, какой-нибудь log normal распределению? Что, после какого-то возраста - что-то подстёгивало женщину повысить рождаемость? Типа, стукнул именно 30й год - и женщина резко озаботилась, а рождаемость резко подскочила (в отличие от 29 лет)? Психологический фактор числа 30 могу понять. Но тогда почему у нас этого нет? А если бы было - то наша мода была бы тоже ближе к 26 а не 28. Второй пик на графике Соренсона "оттягивает" моду вправо, на себя.

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #70 : 09 Апрель 2012, 03:26:23 »
В непрерывных одномодальных (с одной модой) распределениях, близких к нормальному - медиана вроде должна быть: median ≈ (2 × mean + mode)/3 (правило Пирсона, или как там его?).

Проверим Соренсона: медиана 31. А теперь подставляя в формулу выше: (2*32.5+26)/3=30.33. Попали с точностью 30.33/31=97.84%
У нас: медиана 31. Подставляя в формулу: (2*32.47+28)/3=30.98. Попали с точностью 30.98/31=99.93%

У нас ближе.
Либо у Соренсона какой-то систематический биас (причина второго пика или провала наверху?), либо оценка Пирсона неточная и в пределе ошибка не стремиться к нулю, либо распределение не близко нормальному, и к нему не применимо правило одномодальности(?).

Пока не уяснена природа второго пика и из природы "нормальности" рождений (слишком много степеней свободы, влияющих на рождение) - считаю нашу моду (28) более точной чем у Соренсона (26), несмотря на большую выборку.

Хотя должен признаться, что пока не понимаю полезности моды и медианы для TMRCA и выкладки выше для меня - всего лишь формальная игра с числами.


Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #71 : 09 Апрель 2012, 03:44:21 »
Мне, кстати, не очень понятна природа возникновения второго пика у Соренсона (или падение рождаемости в 29 лет). Т.е. почему кривая не максимально гладкая, близкая нормальной, какой-нибудь log normal распределению? Что, после какого-то возраста - что-то подстёгивало женщину повысить рождаемость? Типа, стукнул именно 30й год - и женщина резко озаботилась, а рождаемость резко подскочила (в отличие от 29 лет)? Психологический фактор числа 30 могу понять. Но тогда почему у нас этого нет? А если бы было - то наша мода была бы тоже ближе к 26 а не 28. Второй пик на графике Соренсона "оттягивает" моду вправо, на себя.

А мне понятна. Пардон, за самоуверенность.  8)
Мы просчитывали возраста отцов (средние, медианные, модальные) для всех сыновей.
У Соренсона же по определению использованы только дошедшие до наших дней пары.
Если папаша слишком юн, то шансы у ребёнка умереть выше. Также как и при слишком старом родителе. Да, и пусть и выжившие будут не такими здоровыми.
Скорее всего, максимум у Соренсона соответствует наиболее оптимальному возрасту отца. Оптимальному в смысле сохранения потомства.


*** Василий, хорошо бы было и нам (в смысле Вам  ::) ) построить свой график по парам отец-сын и мать дочь.
Сможете?
Последнюю версию ГЕДКОМ файла могу скинуть.

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #72 : 09 Апрель 2012, 03:50:26 »
Просто для интереса проверил anomalies.txt, вытащив вручную количество строк (т.е. число рождений) под возрастами: 28,29,30,31,32,33.
Получилось (персон): 1943, 1882, 1885, 1715, 1683, 1578.

Выходит, есть второй "пичок" к 30ти годам и у нас. Возможно, поменьше (почти ступенькой), но так же как и у Соренсона.
Т.е. моё предположение о систематическом биасе у него (и отсутствии у нас) неверно (да как я мог такое подумать?!).

Различие мод тем не менее остаётся (при равности средних и медиан!). Чем объяснить - пока не знаю.

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #73 : 09 Апрель 2012, 03:57:29 »
*** Василий, хорошо бы было и нам (в смысле Вам  ::) ) построить свой график по парам отец-сын и мать дочь.
Сможете?
Последнюю версию ГЕДКОМ файла могу скинуть.

Проще послать мне готовую статистику (anomalies.txt), последний вариант.
Если пришлёте - то я попробую найти програмку для построения графиков. Последний раз пользовался аж в универе (graph), лет 15-17 назад, под i386, под досом.
Хотя вру, когда-то и сам программировал такую, но видимо быстрее будет научиться строить в каких-нибудь экселях (чем найти в архивах).

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #74 : 09 Апрель 2012, 04:09:44 »
Отправил файл.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.