АвторТема: Утилита для перегонки GEDCOM файлов с русскими буквами в транслит  (Прочитано 6982 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн AnodeАвтор темы

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Утилита может быть использована для преобразования кириллических GEDCOM файлов, экспортированных, например, из "Древа Жизни" в латиницу с однозначным (стандартным) фонетическим написанием фамилий, имён итд. Это полезно для последующей загрузки в генеалогические сервисы, принимающие только английские буквы.
Целью написания было желание иметь возможность поддерживать только один вариант генеалогического дерева (на русском), и не делать редактирование 2х версий, и на русском и латинице, а просто генерить второй из первого, когда надо. Т.е. сократить рутинную работу в 2 раза.

Утилита работает не только с файлами в формате GEDCOM: ей можно скармливать любые текстовые файлы и получать файлы в другой кодировке на выходе (без транслита). Такие задачи иногда возникают при перегонке старых текстовых файлов (например в KOI-8 или Windows-1251) в современный UTF-8.
Использовать можно как ГУИ-вариант (для этого в существующий тулкит aisgedcom - добавлен новый таб), так и из коммандной строки. Фактически утилита является аналогом юниксовой iconv (но последняя не везде работает с транслитом, не имеет гуи и не всегда работает под виндовс/цигвином).

сгрузить
сайт утилиты


« Последнее редактирование: 19 Июль 2012, 17:59:59 от Anode »

Оффлайн AnodeАвтор темы

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
Самый простой вариант использования (далее - вариант для Windows):

* Сдаунлодить версию с jre (если нет уверенности - что java установлена)
* Дабл-кликнуть на aisgedcom-gui.bat
* Выбрать 3й таб ("Transcode")
* Выбрать файл (напечатать путь или через "Browse")
* "чекнуть" "phonetic" (если надо транслитерацию в транслит). Если просто транскодинг - выбрать кодировки.
Внимание: кодировка входного файла должна быть указана правильно, иначе на выходе будут знаки вопроса, квадратики или мусор. Если кодировка неизвестна - то можно поэкспериментировать, задав последовательно Windows-1251, KOI-8 итд.
* Нажать "Process"

В той же директории - где и исходный файл - найти результат (под тем же именем, но с суффиксом _out).
Теперь имеем английский вариант дерева, который можно загрузить в генеалогичееские программы или сайты, не поддерживающие кириллицу. Но в качестве мастер-копии поддерживаем только одну версию - кириллическую!

Оффлайн Володимеръ

  • Сообщений: 616
  • Страна: ru
  • Рейтинг +160/-0
  • भग: नसुपनयति
  • Y-ДНК: R1a-Y52*
  • мтДНК: W6a
Благодарю! Должна оказаться очень полезной штукой! Обязательно опробую.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Василий,

Вы молодчина!!!

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
И сразу первый косячок: обратите внимание на Я в начале слова.
Яковлева получается YAkovleva.
Непорядок. >:(

:)

Оффлайн AnodeАвтор темы

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
И сразу первый косячок: обратите внимание на Я в начале слова.
Яковлева получается YAkovleva.
Непорядок. >:(

:)

Спасибо! Исправлю.

Оффлайн AnodeАвтор темы

  • Группа N
  • *
  • Сообщений: 1423
  • Страна: ca
  • Рейтинг +147/-0
  • PS1 -> TT1 -> EE1 -> PS2
  • Y-ДНК: N1c1
  • мтДНК: H10a1, U5b1
И сразу первый косячок: обратите внимание на Я в начале слова.
Яковлева получается YAkovleva.
Непорядок. >:(

:)

Спасибо! Исправлю.

Загружена новая версия 0.81 с исправлением.

П.С. Там на самом деле в общем случае не всё однозначно, и надо вводить эвристики для случаев написания слов всеми большими буквами, аббревиатур, сокращённых до одной буквы имён итд.
Но надеюсь, текущая простенькая версия (с однозначным маппингом символа в символ, без просмотра следующих символов) "потянет" на первое приближение.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Закачал.
Смотреть внимательно буду уже после отпуска (т.е. в августе).

:)

Оффлайн nilogov

  • Сообщений: 1379
  • Страна: ru
  • Рейтинг +95/-6
  • философ антиязыка
  • Y-ДНК: R-BY55151
  • мтДНК: T2b-T152C!
А вы бы могли помочь переделать файл? Я запутался в алгоритме перевода...

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Высылайте мне файл почтой на temosh а-коммерческое gmail точка com.

Оффлайн Mich Glitch

  • Genus regis
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
nilogov,

Файл получил, перекодировал и отправил.   :)

Оффлайн iliakan

  • Сообщений: 37
  • Страна: ru
  • Рейтинг +2/-0
Может выложите на github? ;)

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.