АвторТема: archivestra - ПО для автоматической индексации рукописного текста  (Прочитано 544 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Daemon2017Автор темы

  • Сообщений: 2345
  • Страна: ru
  • Рейтинг +1182/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Привет, коллеги!

Полагаю, что всем известен Яндекс Архив https://ya.ru/archive/search - роскошный сервис, который выполняет автоматическую индексацию рукописного текста архивных документов, сохраняет распознанный текст в БД, а затем позволяет искать документы по содержимому. Главный его недостаток - неполнота, вызванная тем, что
1) многие архивы отказываются сотрудничать с Яндексом или сотрудничают "для галочки";
2) простым пользователям не позволено загружать свои коллекции отснятых архивных документов для распознавания, т.к. может возбудиться "правообладатель" снимков.

Частично проблему неполноты попытался решить другой сервис (причем еще до появления Я.Архива  ;D) - Генотек Архивы https://www.genotek.ru/archives/, который, используя Yandex Cloud Vision OCR (на котором построен Я.Архив), проиндексировал тысячи снимков, сделанных мормонами, и дал к ним доступ. Но у него как раз случилась проблема №2, как минимум, с Тульским архивом - по итогу, доступ к снимкам ГАТО пришлось убрать.

Я предлагаю следующее решение: отказаться от размещения снимков вообще! Для этого был разработан инструмент archivestra (archive orchestra - архивный оркестр/оркестратор архивов), который работает следующим образом:
1) отправляет снимок документа на распознавание в Yandex Cloud Vision OCR;
2) получает ответ с распознанным текстом (Яндекс дает координаты каждого распознанного слова) и сохраняет его в БД;
3) при получении запроса, собирает из распознанных слов картинку так, чтобы каждое распознанное слово занимало ровно то пространство на изображении, которое занимал его рукописный прообраз, а затем отдает его пользователю.

Вот как-то так, слева направо: оригинал, собранная картинка, совмещение


Исходный код лежит тут:
https://github.com/Daemon2017/archivestra

А здесь находится сайт, куда я загрузил почти все имеющиеся у меня доки (РС, ИР, ведомости о числе населения) по моему родному селу Корину Арзамасского уезда Нижегородской губернии
https://daemon2017.github.io/archivestra/
1-3РС не стал заливать, т.к. уже по 4-5РС видно, что шрифт 18 века Яшка не вытягивает(

Недавно у Яндекса был единый тариф на все модели: 0.13 рублей за снимок, но сейчас цены на модель распознавания рукописного текста выросли в 10+ раз - до 1.5 рублей за снимок. Но это всё еще очень демократично: мою коллекцию из 700 страниц распознали за 1000+ рублей. Актуальные расценки здесь:
https://yandex.cloud/ru/docs/vision/pricing

Оффлайн Daemon2017Автор темы

  • Сообщений: 2345
  • Страна: ru
  • Рейтинг +1182/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Немного о сайте и его функционале.
Чтобы сэкономить, я держу свой сервер в "холодном" режиме, так что при первом обращении сайт подтупливает секунды 3-4, но затем раскочегаривается и работает как надо.

Сайт состоит из 2 вкладок: заголовки и содержимое.
1а) На вкладке "Поиск по заголовкам" можно посмотреть список дел по нашему селу, которые я проиндексировал.


1б) Если известны координаты дела, то можно проверить, распознано ли оно и что находится внутри


2а) На вкладке "Поиск по содержимому" можно вести поиск по содержимому дел. Например, по имени или фамилии (до 1850 фамилии в моем селе не писали, так что в ревизиях 1721-1834 годов нет фамилий).


2б) А введя координаты конкретного дела, можно просмотреть, где именно находится искомое имя/фамилия



Оффлайн Daemon2017Автор темы

  • Сообщений: 2345
  • Страна: ru
  • Рейтинг +1182/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Немного о качестве распознавания Яндекса.

Если кратенько: к сожалению, результат не всегда так хорош, как хотелось бы. Но Яндекс постоянно совершенствует свой ИИ, так что можно будет попробовать повторно прогнать снимки через годик - возможно, что результат будет лучше.
Что именно влияет на результат - не ясно, но есть догадки:
* качество снимка: по одной и той же РС одного и того же села (т.е. разные копии одной сказки) фотки ГАНО весят 1 Мб, а фотки ЦАНО - почти 10 Мб. Разница, конечно, не в 10 раз, но она и есть и она в пользу тяжелых снимков;
* почерк писца: тут всё как у людей.

Некоторые дела распознались очень хорошо - даже цифры есть.


А некоторые - очень плохо. Например, ревизия 1782 года по нашему селу.



Оффлайн Daemon2017Автор темы

  • Сообщений: 2345
  • Страна: ru
  • Рейтинг +1182/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Забавная ситуация: на странице 3 семьи Дурнайкиных, но Яшка ни разу не смог распознать фамилию правильно ;D То Дирияйкин, то Аурномкин, то Аурнанкин.



 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.