АвторТема: Удобный формат для передачи генеалогической информации  (Прочитано 38656 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн AnodeАвтор темы

  • Группа N
  • *
  • Сообщений: 1500
  • Страна: ca
  • Рейтинг +145/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1

Если удастся порешать заморочки с кодировками, то запросто можете попытаться свою прогу пихнуть той же Анцестри, или ГенТри, или Соренсону, или 23эндМи, или ещё кому.  8)

Что говорится, приятное с полезным. ©  ::)

Вот с этим (талантами пихнуть) - у меня слабо. Как говорится - "знал бы прикуп - жил бы в Сочи".

Потом там надо веб-гую написать, а я из вебдевелопмента ушёл уже 10 лет назад. Сейчас немного другие технологии, а в них въезжать - надо время.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Перечитывал Устав гарнизонной и караульной службы.
Много думал.

©

Я про поколенные интервалы. (С оглядкой на уважаемого Соренсона.)
Вместо того, чтобы заморачиваться с дробными частями года, надо брать их (годы) целиком.
Т.е. месяцы и дни попросту отбрасывая.
При больших файлах Гедком средняя цифирь (средняя дата года) будет верна. Ну, а по малым массивам хоть до секунды считай, всё равно выверенную величину не получишь.

Иными словами призываю всё сделать как у больших:
1) Средний поколенный интервал (может быть и дробным).
2) Медианный интервал (гипотетически может быть дробным, но очень маловероятно; скажем для выборки типа 25 26 29 42 можно взять медианой 27.5).
3) Модальный интервал (всегда целый; для больших выборок лишён смысла; на малой выборке типа 25 25 25 47 - оправдан, т.к. среднее значений 30.5 - явно не в тему; на больших же выборках, лучше среднего значения ничего нет).

Оффлайн AnodeАвтор темы

  • Группа N
  • *
  • Сообщений: 1500
  • Страна: ca
  • Рейтинг +145/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Исправил баг, добавил фильтр (фильтр правда ещё не выведен в ГУИ, так что будут показываться все предки). Репорты в личке. Подготовил почву для вычислений (разбор специфических гедкомовских дат).
Загрузил исправленную версию.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Очень полезная и удобная вещь получилась.
+ !!!

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Подготовил почву для вычислений (разбор специфических гедкомовских дат).
Для фильтров апроксимативные даты нужны.
А вот поколенные интервалы, на мой взгляд, стоит обсчитывать только по точным годам (месяцами и днями пренебрегаем).

Иначе получаются итеративные ссылки.

Например, 90% приблизительных дат рождений родителей вида Abt. выведены именно на основании каких-то произвольно-умозрительных поколенных интервалов. Обсчитывая такие данные, мы условной цифре придаём характер статистически выверенной.

Далее, даты с префиксами Before, After, Between, Circa, зачастую охватывают очень большие интервалы. Обычно они используются для временных отрезков, покрывающих периоды между ревизиями. Или же увязаны с какими-то событиями (военная служба во время войн, например).

Резюмирую:
1. Для расчёта поколенных интервалов использовать только явно указанные даты рождения. Либо один только год, либо год и месяц, либо полную дату.
2. Обсчёт вести только по годам, без учёта месяцев и дней.
3. Финальные цифры представить в виде среднего, медианного и модальных значений отдельно по мужчинам и отдельно по женщинам.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
По предварительным прикидкам поколенные интервалы будут высчитаны где-то на 25 тысячах пар родитель-ребёнок (отец-сын и мать-ребёнок).
Для сравнения у Соренсона:

Number of father/son pairs:   129 558

Number of mother/child pairs:   218 135

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Выделил результаты в отдельную тему.

Оффлайн AnodeАвтор темы

  • Группа N
  • *
  • Сообщений: 1500
  • Страна: ca
  • Рейтинг +145/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Спасибо за публикацию результатов.
(Ну это Вы громко заявили, прямо вот сразу Гаврилова-Темоша :)


"Мопед не мойДанные не мои - я только разместил объявупосчитал"(С)

по поводу
По предварительным прикидкам поколенные интервалы будут высчитаны где-то на 25 тысячах пар родитель-ребёнок (отец-сын и мать-ребёнок).
я не знал - что надо ещё отец-сын отдельно, от просто отцов. Пока только считал отдельно женщин (+ребёнок любого пола) и мужчин (+ребёнок любого пола). Ну и отдельно всех вместе. Арифметическое среднее, медиану (учитывая дробные значения, в случае чётного числа - берём среднее от центральной пары) и моду (поддерживается мультимодальность).

Можно, конечно, и пары отец-сын отдельно посчитать...
 

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Спасибо за публикацию результатов.
(Ну это Вы громко заявили, прямо вот сразу Гаврилова-Темоша :)

А зачем скромничать?
Кто может похвастаться таким Гедком фалом, какой собрал я?
Кстати, задачи по исчислению поколенного интервала были озвучены ещё в далеком 2008 году. Как говорится, пацан сказал - пацан сделал. ©
А реализация программы - полностью Ваша заслуга.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Можно, конечно, и пары отец-сын отдельно посчитать...
Про пары давайте в новой ветке. (Уже отписался.)
Эту ветвь предлагаю дробить по отдельным задачам. Иначе получится полная мешанина.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Продолжаем анализ файла Гедком. Следующая задача вот тут.

Оффлайн AnodeАвтор темы

  • Группа N
  • *
  • Сообщений: 1500
  • Страна: ca
  • Рейтинг +145/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
По теме.

В последней версии нотации atree фамилия(и) стави(я)тся после имени/имён и обрамляется /вот так/. Например, любая строка сейчас выглядит так:

Цитировать
МЖЖМ Иван Петрович /Сидоров/ (22.08.1871-12.03.43) здесь в будущем могут быть другие поля <== или любые комментарии

Это сделано для унификации с конвенциями формата GEDCOM (в программе aisgedcom мы в числе прочего экспортируем также и прямые восходящие линии в atree-формате).

П.С. В связи с этим привёл свою мастер-копию неразработанного пока ещё родословия к последней версии нотации.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Начал выверку результата. Пока всё выглядит правильно.
О полных результатах чуть позже сообщу.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
С первой буквой.
Это не брюзжание, типа, раз я придумал, то и лучше.
Не разность вариантов.
На мой взгляд, в Вашей нотации имеется явная ошибка.

Преабмула. Ведь нотация предлагается для генеалогов. На кой им знать, что это (дополнительная буква) нужно для каких-то программистких заморочек?

В моих понятиях есть чистый и логический смысл. Предковая цепочка. Т.е. цепочка предков по какой-то из фамильных линий.
Попрубуйте также ёмко и недвусмысленно обозвать свой вариант.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 34632
  • Страна: ca
  • Рейтинг +2956/-47
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Фамильные линии.
Перечень ближайших предков по каждой из ветвей родословия.

При Вашем варианте имеем одну нотацию фамильных линий для братьев, другую нотацию для сестёр. Если в семье ещё имеется и какой-то Александр, красящий помадой губы и требующий, чтобы его называли Александрой, то имеем ещё и вариант третий.

Абсурд!

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.


Rambler's Top100