АвторТема: Поколенные интервалы Гаврилова-Темоша  (Прочитано 39387 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #75 : 09 Апрель 2012, 05:36:45 »


(забыл только лейблы на оси и заголовок поставить)



Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #76 : 09 Апрель 2012, 05:38:07 »
Если знаете - как покрасивше нарисовать - вот вам данные в виде таблички:

Цитировать
age   persons
-12   1
-7   1
-6   1
-1   1
2   1
3   3
4   1
5   1
7   4
8   3
9   2
10   6
11   6
12   9
13   57
14   100
15   132
16   204
17   410
18   716
19   1120
20   1447
21   1736
22   1980
23   2058
24   2159
25   2222
26   2213
27   2223
28   2174
29   2126
30   2126
31   1920
32   1920
33   1795
34   1728
35   1664
36   1565
37   1407
38   1354
39   1228
40   1066
41   957
42   808
43   711
44   585
45   478
46   416
47   330
48   287
49   215
50   187
51   159
52   121
53   109
54   95
55   64
56   62
57   69
58   46
59   42
60   37
61   27
62   17
63   13
64   14
65   10
66   11
67   11
68   7
69   6
70   5
71   4
73   4
74   1
75   3
76   2
77   3
78   2
79   2
80   1
81   2
82   1
83   1
84   1
86   1
88   1
90   2

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #77 : 09 Апрель 2012, 05:43:01 »
Похоже на Log-normal distribution

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #78 : 09 Апрель 2012, 05:53:38 »
Но у нас не точно как на графике у Соренсона (где likelihood), а частотное распределение (гистограмма частот). Но вроде по Центральной Предельной Теореме распределения должны быть схожи. Если же я "нагнал" и всё позабыл - то пусть меня математики поправят.

P.S. Ещё пусть аутлаеры никого не смущают (те точки, которые имеют явно неправильный возраст, меньше детородного или даже 0), мы же не причёсывали данные. Единичные ошибки "съедятся" статистикой и скомпенсируются. Когда мы их принудительно убирали (например, отрезали точки менее 12 лет) - то финальные числа не менялись, если мне не изменяет память, таким образом и вид графика не изменится из-за убирания двух десятков точек из десятков тысяч.
« Последнее редактирование: 09 Апрель 2012, 06:03:09 от Anode »

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #79 : 09 Апрель 2012, 07:34:14 »
Две ремарки.
По дамам у Соренсона картинка выглядит более идейно выдержанной:


Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #80 : 09 Апрель 2012, 07:38:12 »
Второе, наше сравнение не вполне корректно.
а) Для графика использованы все пары родитель-ребёнок, а не отец-сын, или мать-ребёнок (как у Соренсона).
б) Не откинуты пары с сомнительными возрастами (хотя Василий уже совершенно верно подметил, что в виду их относительной немногочисленности, ими можно пренебречь).

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #81 : 09 Апрель 2012, 07:47:19 »
Кстати, для исчисления по мито нужны всё-таки пары мать-дочь, а не мать-ребёнок.
Если бы это были короткие интервалы в десяток-полтора поколений, то то, что на последнем поколенном этаже мито передаётся как дочери, так и сыну имело бы какой-то смысл.
А так, по определению, учитывая низкую скорость мутирования по мито, - речь идёт о десятках и сотнях поколений. Когда фамильная линия идёт от матери к дочери. И только последнее поколение (которым вполне можно пренебречь) от матери к ребёнку. (Пренебречь не самим поколением, а тем, исчислен поколенный интервал мать-дочь, или же мать-ребёнок.)

Но тут можно опять возразить, что от того, что исчислили поколенный интервал на современных парах мать-дочь (отец-сын), нет никакой гарантии того, что сотни и тысячи лет тому назад поколенные интервалы были такими же.


Короче говоря, если вернуться к мужичкам, то на глубинах до 500-2000 лет усреднённый экспериментально-умозрительный  :o интервал в 30 лет выглядит как самое то.
:)

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #82 : 09 Апрель 2012, 07:54:48 »
Второе, наше сравнение не вполне корректно.
а) Для графика использованы все пары родитель-ребёнок, а не отец-сын, или мать-ребёнок (как у Соренсона).
б) Не откинуты пары с сомнительными возрастами (хотя Василий уже совершенно верно подметил, что в виду их относительной немногочисленности, ими можно пренебречь).

Так точно. В том файле не хватает данных по полу, и я использовал всех. Видимо, всё-же без Вашего гедкома не обойтись. Надо будет прогнать его (а не anomalies.txt), но прежде дописать программу - чтобы "выплёвывать" в отчёт ещё и пол. Затем дописать скрипт, делающий раздельные таблички для пар "отец-сын" и "мать-дочь" и построить раздельные графики.


Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #83 : 09 Апрель 2012, 07:59:06 »
Две ремарки.
По дамам у Соренсона картинка выглядит более идейно выдержанной:



Таки я непонимаю. Почему такой острый "зуб", пик у Соренсона в 22 года? Вот прямо все взяли и решили в какой-то месяц, вот так резко поменять дето-рожденьческую политику на противоположную, в одночасье. Чуть ли не в какой-то месяц. Ну ведь сглаженно же должно быть всё, "нормализовано". Вроде и пар сотни тысяч, т.е. большая статистика. Ну почему такой острый пик?

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #84 : 09 Апрель 2012, 08:07:25 »
Василий,

Да не будем мы время тратить на прогоны.

Что до острых зубов, то это просто форма представления.
Либо чистое художество.
Либо связанное с тем, что по шкале гонят дискретами в два года, а величины идут округлённо до года. Вот и имеем резкий перелом.

Понятно, что с низу имеем ограничение каким-то минимальным пороговым детородным возрастом. Ну, а по верхней шкале эта граница размыта.

Интервал нам зачем нужен?
ВБОПы прикидывать (заметьте. я даже не использую выражение ВБОПы считать).

Ну, а для этого можно и должно брать среднеарифметичсекое значение.


*** Есть у меня более интересная идейка. Но о ней позже и в другой теме (ещё не созданной). Очень Вы понадобитесь.   :)

Оффлайн Anode

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #85 : 09 Апрель 2012, 08:12:49 »
Что до острых зубов, то это просто форма представления.

Точно, так и есть. Не за год а за два, там "сшитые" отрезки.

Да не будем мы время тратить на прогоны.

Ну и отлично, я - только за (мне меньше работы :)

Оффлайн Alexander

  • Сообщений: 650
  • Рейтинг +73/-1
  • Y-ДНК: J2b
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #86 : 09 Апрель 2012, 10:22:59 »
Хотя должен признаться, что пока не понимаю полезности моды и медианы для TMRCA и выкладки выше для меня - всего лишь формальная игра с числами.
Они в ряде случаев бывают полезны, например, при филогении при выборе укоренения. В частности, на родстве обсуждались попытки применения т.н. настраиваемого базового гаплотипа. За который в обычных случаях берётся модальный или среднеарифметический, а спорные аллели поверяются медианным. Для большинства ординарных случаев все три значения совпадают, но в сложных - стоит попробовать разные варианты.
На молгене рекомендуют иные способы укоренения, например, на "постороннего". Но этот приём требует углублённых знаний предмета, подобрать "постороннего" задача не из лёгких.
Что до приёмов построения дерева с выявлением прикорневых веток, используемых для отбирания пар в одноимённом методе расчёта TMRCA, пока практика показывает, что наиболее простое (укоренение на модал) является и более эффективным. Если для тонкой структуры дерева полезнее "посторонний", то для прикорневой (и соответственно, для МВП) - пока приходится обходиться модальным значением.

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #87 : 09 Апрель 2012, 11:28:06 »
Просто известный факт из матстатистики, почему наряду с понятной средней величиной используются так же модалы и медианы.
Данные величины нужны для разновероятностных событий, а также в тех случаях, когда оценить событийную вероятность не представляется возможным.

Дабы не рассусоливать, просто сошлюсь на признанные авторитеты. Вот, к примеру,


Я в английском не силен, поэтому решил перевести автоматическим переводчиком:
"Эта диаграмма показывает средний интервал в годах между парой отец-сын в базе данных Y-хромосомы Сомерсона. Таблица показывает три метода определения интервала поколения. TMRCA использует модальное значение для того, чтобы преобразовать число поколений к годам."
Во-первых, поясните,пожалуйста, почему на графике ось ординат обозначена как функция правдоподобия, а не вероятность? Правдоподобие - это, фактически, условная вероятность, у которой в качестве параметра использован некий параметр. Также я категорически не согласен с тем, что для оценки ВБОП можно использовать моду распределения (на графике "модальное значение"). Автор сам же привел в качестве примера сильно перекошенное распределение (мода еще более "прижата" влево по сравнению с приведенным графиком).
Представим себе, что мы определяем ВБОП, которая в районе 200-300 поколений. И мы будем использовать в качестве оценки средней длительности моду сильно перекошенного распределения. Ну и что мы получим в результате? Явно сильно заниженную оценку времени, которое заняли эти 200-300 поколений. Именно поэтому для вычисления ВБОП нам необходимо выборочное среднее длительности поколения (матожидание).
Я осознаю, что мода распределения может быть интересна тем, кто изучает разные тонкие причины изменения рождаемости, какие-то популяционные факторы и так далее. Действительно, очень интересно, где пик находится или вдруг сразу две или три моды. Понятно, что здесь какие-то популяционные эффекты зарыты или выборка явно неоднородна.
Поведение моды и медианы довольно специфично и для расчетов различных нормировочных параметров (типа средней длительности поколения) они все-таки неудобны.

Я ошарашен объемом работы, который Вы с Anode провели. Мои потуги по обработке 600 реальных генеалогий весьма бледно выглядят, хотя результат я получил близкий к вашим.
Для расчета ВБОП существует проблема дифференциации средней длительности мужского поколения по регионам и, особенно - во времени (в историческое время, скажем, позже начала н.э., и в более ранние времена). И можно ли в качестве модели доисторических обществ использовать данные по современным племенам Амазонии, Индонезии и пр.?
У вас накоплена огромная статистика, и ее уже вполне можно дифференцировать без особой потери точности оценок. И это было бы просто замечательно!
« Последнее редактирование: 09 Апрель 2012, 11:45:09 от Каржавин »

Оффлайн Alexander

  • Сообщений: 650
  • Рейтинг +73/-1
  • Y-ДНК: J2b
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #88 : 09 Апрель 2012, 16:42:02 »
Просто известный факт из матстатистики, почему наряду с понятной средней величиной используются так же модалы и медианы.
Данные величины нужны для разновероятностных событий, а также в тех случаях, когда оценить событийную вероятность не представляется возможным.

 решил перевести автоматическим переводчиком:
... TMRCA использует модальное значение для того, чтобы преобразовать число поколений к годам."
Вообще-то median value - переводится, как медианное значение (использует для перехода к годам). Медиана это вероятностная середина выборки, поэтому заключение вполне логично (так же, как были бы логичны   2 других варианта).
Тут ещё нужно разобраться, где-что?
В моём представлении, пик кривой - это модал (наиболее часто встречающиеся величины).
Если провести вертикальную линию так, чтобы площади справа и слева (вероятности) были бы равны, то получим медиану. На таком кривом распределении она будет правее модала-пика.
Арифметическое усреднение даст точку ещё правее.
Как-то логично из трёх зол для расчёта выбрать среднее - медиану (?). Хотя и модал иногда сойдёт, а ещё лучше - среднее арифметическое.

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Re: Поколенные интервалы Гаврилова-Темоша
« Ответ #89 : 09 Апрель 2012, 17:04:04 »
Как-то логично из трёх зол для расчёта выбрать среднее - медиану (?). Хотя и модал иногда сойдёт, а ещё лучше - среднее арифметическое.
Я ошибся, конечно: на графике сказано медианное значение. Ну она тоже не очень хороша для расчета ВБОП. Если у нас ВБОП объединяет длинную цепочку поколений,  представить ВБОП как сумму соответствующих медиан как-то трудно. Все-таки используют именно выборочное среднее.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.