АвторТема: Удобный формат для передачи генеалогической информации  (Прочитано 52143 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
да ну? а я уже думал что это канадско-российский инвеншн: от Аноде формат а от меня название :)

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy
О Боже.. Это ж Вы придумали а я уже приписал нам с Аноде :)

Извиняйте :)

Оффлайн AnodeАвтор темы

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Начал писать на английском здесь.
(пока только набросал всё что пока есть, не вычитывал английский, так что просьба за язык не пинать).

Формат надо было как-то назвать и я назвал его пока "atree" (от "a tree" - одно из деревьев, коих в идеале в интернете должно быть много - для сравнения генеалогий), вроде имя не затасканное.

Поместил скрипты для автоматичских преобразований из Сос-Страдоница в atree и обратно, т.е. можно писать конвертирующие скритпы для уже существующих генеалогий в старом формате.

Также поместил скрипт для генерации пустого темплейта полного дерева (все идентификаторы без пропуска) - чтобы потом заполнять (если кому-то не хочется вбивать все пути вручную и перепроверять).

Оффлайн AnodeАвтор темы

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Предлагаю название Notation  ;D

*.yyn

Валерий, забыл спросить: а почему Инь-Янь в применении к какому-то утилитарному формату? Ведь Инь-Янь - это более глобальная концепция. У религиозных символов другой масштаб применений, имхо. И думаю, многие не поймут, не согласятся. То ли дело какое-нибудь нейтральное atree, коих может быть и много будет когда-нибудь по инету (если правая часть протокола устаканится).

П.С. Так и подмывало написать эпиграфом: "There are only 10 types of people in the world -- those who understand binary, and those who don't",
так как данный формат несёт также и просветительскую функцию популяризации бинарного исчисления - как натурального (а следовательно и наиболее выразительного) языка бинарных деревьев, подходящих для генеалогий гетерогамных организмов.
« Последнее редактирование: 08 Ноябрь 2011, 06:47:57 от Anode »

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Anode,

На мой взгляд неправильно начинать отсчёт от персоны. Т.е. присваивать ей буковку.
Референтная персона должна быть указана явно.
Не М, не Ж.
Потому что всё равно придется объяснять, что вот этот ММЖМ идёт о Пупкина Васи. А вот этот ММЖМ от Сидорова Пети.

Поэтому лучше писать Пупкин Вася МЖМ, или Сидоров Петя МЖМ. Дабы избежать тавтологии с редондантной буковкой.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Ну, и потом я формат применяю только для обозначения предковых линий (а не всех без исключения предков!). В генетической генеалогии они увязаны с субкладами.
Например по игреку:
отцовский М
деда по матери ЖМ
отца бабушки по отцу МЖМ
отца бабушки по матери ЖЖМ и т. д.

Какой смысл в повторениях, типа отец М, дед ММ, прадед МММ и далее?
Ведь фамильная линия одна. (Без учёта разных вариантов собственно фамилии.) И гаплотип один. (Без учёта мутаций и НДБО.)

Что до нотаций для обозначения всех предков, то тут предпочитаю использовать стандартные нотации для восходящих и нисходящих родословных росписей. Типа, вот такой нисходящей росписи варианта моей прямой мужской линии.

Оффлайн AnodeАвтор темы

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Anode,

На мой взгляд неправильно начинать отсчёт от персоны. Т.е. присваивать ей буковку.
Референтная персона должна быть указана явно.
Не М, не Ж.
Потому что всё равно придется объяснять, что вот этот ММЖМ идёт о Пупкина Васи. А вот этот ММЖМ от Сидорова Пети.

Поэтому лучше писать Пупкин Вася МЖМ, или Сидоров Петя МЖМ. Дабы избежать тавтологии с редондантной буковкой.

Если убрать буковку  - то нарушится всё бинарное счисление. Возникнет неоднозначность (М и Ж должны быть кем-то "склеены", исследователем, корнем, и это должно отражаться сразу же в номерах-ID).
Нужно чтобы корень получил 1, папа - 2, мама - 3 по-любому (чтобы быть совместимым с С-С и другим соображениям, например перечислению всех узлов).

Конечно, это дело вкуса, можно принять соглашения добавления единички постфактум, но мне показалось более красивым сразу рисовать корень таким же равноценным как и остальные узлы. Т.е. у каждой строчки в файле есть свой ID, и корень - не исключение. Не могу поступиться этой самодостаточностью. В общем-то и дополнительной информации тогда не требуется (если публикующий файл - аноним или это какая академическая выборка).

Оффлайн AnodeАвтор темы

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Ну, и потом я формат применяю только для обозначения предковых линий (а не всех без исключения предков!). В генетической генеалогии они увязаны с субкладами.
Например по игреку:
отцовский М
деда по матери ЖМ
отца бабушки по отцу МЖМ
отца бабушки по матери ЖЖМ и т. д.

Какой смысл в повторениях, типа отец М, дед ММ, прадед МММ и далее?
Ведь фамильная линия одна. (Без учёта разных вариантов собственно фамилии.) И гаплотип один. (Без учёта мутаций и НДБО.)

Что до нотаций для обозначения всех предков, то тут предпочитаю использовать стандартные нотации для восходящих и нисходящих родословных росписей. Типа, вот такой нисходящей росписи варианта моей прямой мужской линии.


Мне нужно явно маркировать те узлы - которые ещё не исследованы, нужно их сразу видеть. Т.е. нужно все без исключения (чтобы никого не пропустить). Смотря на все строки - я явно вижу всё бинарное дерево, кого там ещё не хватет и какой архив начинать запрашивать следующим.
Я хочу видеть всё дерево сразу на одном экране.

А повторение - это просто путь от меня. Любое сокращение приведёт к потере информации. Т.е. меня интересуют не столько гаплогруппы (для чего М и Ж используете Вы), сколько путь к данному родственнику (как путь в файловой системе). А гаплотипы это просто дополнительная информация (я их даже ввёл позже).
« Последнее редактирование: 08 Ноябрь 2011, 07:13:03 от Anode »

Оффлайн AnodeАвтор темы

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Согласен, для нисходящих формат не совсем подходит. С ним нужно спускаться до конкретного человека и подниматься от него. Цель другая.

Я и не предлагал замену всей базе данных записей изначально, а предлагал дополнение, органайзер что-ли. Чтобы кузенам, просящим генеалогию в кратком емейле посылать.
Чтобы смотреть на одном экране на всех своих предков и решать - кого пробивать следующим. Или кто подойдёт с данной гаплой.
Или  послать архиву или родственникам целое поддерево в компактной форме (кто-же захочет вчитываться во много страниц, особенно если ему имена пока ничего не говорят). А тут конденсированная информация на нескольких строках (главное - на одном экране!).
А доп. информация, записки, документы, сканы идут уже в рекорды подобные Вашим, в базу.
Мой же формат несёт в себе прежде всего _структуру_ генеалогического (бинарного) древа, все его ноды и читаемые натуральные идентификаторы - пойнтеры на другую информацию.

Оффлайн AnodeАвтор темы

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Последнее (забыл на этот вопрос ответить).

С отсутствием в дереве информации по корню - Вы в неявной форме переносите "работу" на будущее, на дополнительный "процессинг" , напока "убирая" информацию в допущения. Будущим роботам это не понравится.
Моё же дерево несёт всю информацию (и даже отдельные строки - в них полный путь - несут полную информацию - паттерн который можно сравнивать с другими строками).
Моя цель - иметь предельно полную информацию для структуры дерева, чтобы агенты (типа робота Вертнера) могли в будущем искать по интернету отдельные куски генеалогий _автоматически_, и эвристически сравнивать иерархии по паттернам, звучаниям фамилий итд (без необходимости парсить страницы и искать - что же там за персона выложила свою генеалогию: мужчина или женщина и под каким именем), но начиная от корня, владельца генеалогии.

Оффлайн Valery

  • Сообщений: 10107
  • Страна: 00
  • Рейтинг +1380/-7
  • Ultimate Matriarchy

Валерий, забыл спросить: а почему Инь-Янь в применении к какому-то утилитарному формату?


мужик-баба-мужик-баба-...

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Если убрать буковку  - то нарушится всё бинарное счисление. Возникнет неоднозначность (М и Ж должны быть кем-то "склеены", исследователем, корнем, и это должно отражаться сразу же в номерах-ID).

Вот он и склеен ID (что имя, что просто какой-то число-нумерной индекс).
Ведь если будут только М и Ж на последнем этаже, то как Вы выясните Ху из ху?

И потом, мы абстрагируемся от пола ребёнка. От всяких там игрек и икс хромосом. У каждого дитяти есть папа и мама со своими субкладами.

Оффлайн AnodeАвтор темы

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Если убрать буковку  - то нарушится всё бинарное счисление. Возникнет неоднозначность (М и Ж должны быть кем-то "склеены", исследователем, корнем, и это должно отражаться сразу же в номерах-ID).

Вот он и склеен ID (что имя, что просто какой-то число-нумерной индекс).
Ведь если будут только М и Ж на последнем этаже, то как Вы выясните Ху из ху?

И потом, мы абстрагируемся от пола ребёнка. От всяких там игрек и икс хромосом. У каждого дитяти есть папа и мама со своими субкладами.

Как я Вас понял - Вы предлагаете иметь что-то типа:
------
М папа
Ж мама
ММ дед
МЖ бабка
------
ведь так?
А имя создателя генеалогии идёт в страничке, в метадате (т.е. вне дата-блока).
Это плохо для автоматической обработки.

В моём случае - это первая строка, главный узел, и в том же формате - что и все остальные ноды.
------
М я
ММ папа
МЖ мама
МММ дед
ММЖ бабка
------
т.е. будущий робот не должен парсить страничку и видит кто "я", корневой узел. Т.е. моя запись более полная.
Не говоря о том - что она более симметричная (каждый нод-узел - равноправный), а также не порождает проблем с прямым переводом в бинарное счисление. Т.е. небольшая избыточность решает массу мелких проблем.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
По любому смысла не вижу.
Если дерево строится только для одной персоны, то то, что он в корне - просто подразумевается.

Если персон для которых строятся дерева - десятки, сотни, тысячи, то Вы не можете всех просто обозвать М, или Ж.
Вы М.
Ваш брат М.
И Ваши троюродные братья тоже (о какая оригинальность!) тоже М.

Ну, а если М1, М2, М3 - то это уже суть индексные ID.

Оффлайн AnodeАвтор темы

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
По любому смысла не вижу.
Если дерево строится только для одной персоны, то то, что он в корне - просто подразумевается.


Подразумевается для человека - но не для машины. Вот, робот наталкивается на
------
М папа
Ж мама
ММ дед
МЖ бабка
------
на просторах интернета.
При построении бинарного дерева - кого он должен поставить в корень: М или Ж, какое имя (наверняка не все будут анонимусами)? А ведь это информация тоже. Каждый бит полезен.

Теперь представим, что в будущем делают полный сиквенс генома и какими-то будущими гаплогруппами фиксируют даже индивидуальные мутации.
Ну, например, корневой узел оказался N1c1a1b1c5, т.е. учтены индивидуальные мутации по сравнению с отцом N1c1a1b1c4.

В моём дереве мы имеем:
------
М [N1c1a1b1c5] Вася Пупкин
ММ [N1c1a1b1c4] Коля Пупкин
------

т.е. опять же не теряем информацию, которую исследователь хочет записать.

Или представим, что отец неизвестен. Но исследователь тем не менее хочет указать свою гаплу.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.