Привет, коллеги!
Полагаю, что всем известен Яндекс Архив
https://ya.ru/archive/search - роскошный сервис, который выполняет автоматическую индексацию рукописного текста архивных документов, сохраняет распознанный текст в БД, а затем позволяет искать документы по содержимому. Главный его недостаток - неполнота, вызванная тем, что
1) многие архивы отказываются сотрудничать с Яндексом или сотрудничают "для галочки";
2) простым пользователям не позволено загружать свои коллекции отснятых архивных документов для распознавания, т.к. может возбудиться "правообладатель" снимков.
Частично проблему неполноты попытался решить другой сервис (причем еще до появления Я.Архива
) - Генотек Архивы
https://www.genotek.ru/archives/, который, используя Yandex Cloud Vision OCR (на котором построен Я.Архив), проиндексировал тысячи снимков, сделанных мормонами, и дал к ним доступ. Но у него как раз случилась проблема №2, как минимум, с Тульским архивом - по итогу, доступ к снимкам ГАТО пришлось убрать.
Я предлагаю следующее решение: отказаться от размещения снимков вообще! Для этого был разработан инструмент archivestra (archive orchestra - архивный оркестр/оркестратор архивов), который работает следующим образом:
1) отправляет снимок документа на распознавание в Yandex Cloud Vision OCR;
2) получает ответ с распознанным текстом (Яндекс дает координаты каждого распознанного слова) и сохраняет его в БД;
3) при получении запроса, собирает из распознанных слов картинку так, чтобы каждое распознанное слово занимало ровно то пространство на изображении, которое занимал его рукописный прообраз, а затем отдает его пользователю.
Вот как-то так, слева направо: оригинал, собранная картинка, совмещение
Исходный код лежит тут:
https://github.com/Daemon2017/archivestraА здесь находится сайт, куда я загрузил почти все имеющиеся у меня доки (РС, ИР, ведомости о числе населения) по моему родному селу Корину Арзамасского уезда Нижегородской губернии
https://daemon2017.github.io/archivestra/1-3РС не стал заливать, т.к. уже по 4-5РС видно, что шрифт 18 века Яшка не вытягивает(
Недавно у Яндекса был единый тариф на все модели: 0.13 рублей за снимок, но сейчас цены на модель распознавания рукописного текста выросли в 10+ раз - до 1.5 рублей за снимок. Но это всё еще очень демократично: мою коллекцию из 700 страниц распознали за 1000+ рублей. Актуальные расценки здесь:
https://yandex.cloud/ru/docs/vision/pricing