АвторТема: Виртуальные архивы  (Прочитано 107585 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн FELIX

  • Сообщений: 4082
  • Страна: rw
  • Рейтинг +1585/-8
  • Y-ДНК: R-YP569
  • мтДНК: U5a1a1b
Re: Виртуальные архивы
« Ответ #330 : 24 Ноябрь 2021, 10:07:18 »
Не совсем архив, а виртуальная база данных на 200 мегабайт не много не мало:

Microsoft Access база данных офицеров - РУССКИЙ ИНВАЛИД

В 2018 году было более 1,200,000 линий записей.

обновление: https://forum.vgd.ru/post/311/39546/p3989738.htm#pp3989738
« Последнее редактирование: 24 Ноябрь 2021, 18:08:16 от FELIX »

Оффлайн FELIX

  • Сообщений: 4082
  • Страна: rw
  • Рейтинг +1585/-8
  • Y-ДНК: R-YP569
  • мтДНК: U5a1a1b
Re: Виртуальные архивы
« Ответ #331 : 08 Март 2022, 20:07:46 »
"Перл" от Генотека:

Мы проиндексировали около двух миллионов сканов документов Главархива Москвы. В них содержатся записи о крещениях, венчаниях и отпеваниях, а также списки семей за разные периоды времени. Используйте поиск, чтобы найти информацию о своих предках.

https://www.genotek.ru/archives/

Оффлайн Daemon2017

  • Сообщений: 2185
  • Страна: ru
  • Рейтинг +1065/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Re: Виртуальные архивы
« Ответ #332 : 08 Март 2022, 21:02:02 »
"Перл" от Генотека:

Мы проиндексировали около двух миллионов сканов документов Главархива Москвы. В них содержатся записи о крещениях, венчаниях и отпеваниях, а также списки семей за разные периоды времени. Используйте поиск, чтобы найти информацию о своих предках.

https://www.genotek.ru/archives/

Объясните прекол, а то я с деревни :-\ В чем "перл"?

Оффлайн FELIX

  • Сообщений: 4082
  • Страна: rw
  • Рейтинг +1585/-8
  • Y-ДНК: R-YP569
  • мтДНК: U5a1a1b
Re: Виртуальные архивы
« Ответ #333 : 08 Март 2022, 21:13:08 »
Во-первых, Генотек  - это генетика. Во-вторых, индексация московских приходов, даже такая грубая - ещё один прорыв, после предоставления свободного доступа к материалам ЦИАМ. Сходу выявил более 30 нужных записей.

Такое впечатление, что индексация автоматическая? Или с голоса? 2.000.000 сканов - это очень много. Но поиск, конечно, "дубовый", без настроек. На сайте "Газеты Российской Империи" интереснее инструменты.

Цитировать
перл I. 1. устар. жемчужное зерно, жемчужина. 2. перен. сокровище, драгоценность. 3. перен., ирон., разг. нечто выдающееся в ряду подобных.

Оффлайн Lesla

  • Главный модератор
  • *****
  • Сообщений: 9629
  • Страна: ru
  • Рейтинг +2925/-9
  • FTDNA: 154400 (Big Y - 283049)
  • Y-ДНК: R1a-YP682 (VK06+)
Re: Виртуальные архивы
« Ответ #334 : 08 Март 2022, 21:18:52 »
Такое впечатление, что индексация автоматическая? Или с голоса?
по моему впечатлению, автоматическая, распознание текста.

Оффлайн grimsvotn

  • Some things in life are too complicated to explain in any language © Murakami
  • Сообщений: 6405
  • Страна: ru
  • Рейтинг +1780/-1
  • Потомок Морры
    • R-L1280 haplogroup project
  • Y-ДНК: R-Y220521 (RU-BY), Russian-Belorussian borderline cluster
  • мтДНК: T1a1y1 G4820A (RU-UA-IRL), Proto-Celts?
Re: Виртуальные архивы
« Ответ #335 : 08 Март 2022, 21:21:42 »
"Перл" от Генотека:

Мы проиндексировали около двух миллионов сканов документов Главархива Москвы. В них содержатся записи о крещениях, венчаниях и отпеваниях, а также списки семей за разные периоды времени. Используйте поиск, чтобы найти информацию о своих предках.

https://www.genotek.ru/archives/

Спасибо за ссылку, нашел порядка пяти родичей прадеда по линии ЖЖМ Иосифа Степановича Крутилина из Серпуховского уезда (д. Глотаево Хатунской волости). Причем, пара из них ранее были неизвестны. Плюс ко всему, оказалось, что до революции некоторые из них имели некоторое отношение к Замоскворецкому, Пречистенскому и Ивановскому сорокам Москвы. То ли жили там, то ли еще что - надо выяснять.
« Последнее редактирование: 08 Март 2022, 21:43:40 от grimsvotn »

Оффлайн Daemon2017

  • Сообщений: 2185
  • Страна: ru
  • Рейтинг +1065/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Re: Виртуальные архивы
« Ответ #336 : 08 Март 2022, 22:52:47 »

Или с голоса?
Цитировать
перл I. 1. устар. жемчужное зерно, жемчужина. 2. перен. сокровище, драгоценность. 3. перен., ирон., разг. нечто выдающееся в ряду подобных.

Точно не с голоса: нигде сейчас не найти такого индексатора, который бы безошибочно выговаривал "села Рождественскаго" или "православнаго вероисповедания" ;D Да и яти с голоса проставлять сложно.

Давеча индексировал РС 18-го века: 61 разворот, 15 минут/разворот - итого 16 часов, в ходе которых проиндексировано 1300 человек.
За 40-часовую одна такая обезьяна делает 3250 записей. Т.е. чтобы успеть за неделю, то надо 615 обезьян, а если сроки не горят, то за 3 месяца 51 обезьяна выполнит весь объем работ.

В возможность достичь такого через OCR не верю - слишком круто, чтобы быть правдой ::)

Ааа, спасибо! Я думал, что "перл" имеет исключительно саркастично-ироничную окраску)

Оффлайн grimsvotn

  • Some things in life are too complicated to explain in any language © Murakami
  • Сообщений: 6405
  • Страна: ru
  • Рейтинг +1780/-1
  • Потомок Морры
    • R-L1280 haplogroup project
  • Y-ДНК: R-Y220521 (RU-BY), Russian-Belorussian borderline cluster
  • мтДНК: T1a1y1 G4820A (RU-UA-IRL), Proto-Celts?
Re: Виртуальные архивы
« Ответ #337 : 08 Март 2022, 23:05:56 »
Да, в принципе, если знать, что искать, то можно поскроллить и все найти без проблем. Это еще более-менее нормально распознано ;D

Оффлайн Daemon2017

  • Сообщений: 2185
  • Страна: ru
  • Рейтинг +1065/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Re: Виртуальные архивы
« Ответ #338 : 09 Март 2022, 17:03:01 »
Раскаиваюсь в своем неверии - у них же прямым текстом написано:
Цитировать
Мы научили нейронную сеть распознавать рукописный текст в архивных документах. Это позволило нам проиндексировать миллионы сканов и получить записи о предках в виде текста. Теперь в поиске вы можете находить сканы с упоминаниями ваших предков.
...
Расшифровка сканов вручную занимает много времени, поэтому мы обучили нейронные сети — они умеют определять и распознавать русский рукописный текст в метрических книгах. Как и любой алгоритм, нейронные сети могут ошибаться. Из-за качества документа, сложности почерка и других причин некоторые слова могут распознаваться неправильно или с ошибками. Однако умный поиск учитывает возможные неточности и ошибки.

Это прорыв!

Оффлайн Бибиков

  • Сообщений: 188
  • Страна: ru
  • Рейтинг +78/-0
  • Y-ДНК: R1b (R-Y37731)
Re: Виртуальные архивы
« Ответ #339 : 17 Март 2022, 02:51:14 »
Тоже заценил. Много ошибок, но это действительно прорыв, хорошее подспорье!

Оффлайн Vicand

  • Сообщений: 129
  • Страна: ru
  • Рейтинг +43/-0
  • Y-ДНК: R1a > > R-FT8357
  • мтДНК: H1h1d
Re: Виртуальные архивы
« Ответ #340 : 17 Март 2022, 08:56:41 »
Нейронные сети наверное недостаточно обучены. Мне интересны записи по дер. Морозово Волоколамского уезда, но там так коряво написано, что никакой OCR с нейросетями не справится. Соответственно, Генотек ничего не выложил. Остаётся надеяться на прогресс в этой области.

Оффлайн Бибиков

  • Сообщений: 188
  • Страна: ru
  • Рейтинг +78/-0
  • Y-ДНК: R1b (R-Y37731)
Re: Виртуальные архивы
« Ответ #341 : 25 Март 2022, 18:00:01 »
ГЕНОТЕК выложил. Работает все достаточно коряво, но работает! И на том спасибо!

Оффлайн FELIX

  • Сообщений: 4082
  • Страна: rw
  • Рейтинг +1585/-8
  • Y-ДНК: R-YP569
  • мтДНК: U5a1a1b
Re: Виртуальные архивы
« Ответ #342 : 30 Апрель 2022, 16:36:22 »
Во-первых, Генотек  - это генетика. Во-вторых, индексация московских приходов, даже такая грубая - ещё один прорыв, после предоставления свободного доступа к материалам ЦИАМ. Сходу выявил более 30 нужных записей.

Такое впечатление, что индексация автоматическая? Или с голоса? 2.000.000 сканов - это очень много. Но поиск, конечно, "дубовый", без настроек. На сайте "Газеты Российской Империи" интереснее инструменты.

Цитировать
перл I. 1. устар. жемчужное зерно, жемчужина. 2. перен. сокровище, драгоценность. 3. перен., ирон., разг. нечто выдающееся в ряду подобных.

Пока предвосхищать обстоятельства рано, но судя по всему у Генотека наполеоновские планы с нейронными алгоритмами. Дай бог им удачи.

Оффлайн FELIX

  • Сообщений: 4082
  • Страна: rw
  • Рейтинг +1585/-8
  • Y-ДНК: R-YP569
  • мтДНК: U5a1a1b
Re: Виртуальные архивы
« Ответ #343 : 01 Май 2022, 17:39:19 »
Пока предвосхищать обстоятельства рано, но судя по всему у Генотека наполеоновские планы с нейронными алгоритмами. Дай бог им удачи.

Уже в доступе:

ГА Воронежской области (ГАВО)
ГА Вологодской области (ГАВО)
ГА Астраханской области (ГААО)
ГА Нижегородской области в г. Арзамас (ГАНО г. Арзамас)
Главархив г. Москва (ЦИАМ)

Оффлайн AleksG

  • Maternal Y-DNA: R-L365->YP940>R-Y110693
  • Сообщений: 888
  • Страна: 00
  • Рейтинг +399/-4
  • Y-ДНК: Q-PH2513
  • мтДНК: U5a1a1a
Re: Виртуальные архивы
« Ответ #344 : 01 Май 2022, 23:28:08 »
Пока предвосхищать обстоятельства рано, но судя по всему у Генотека наполеоновские планы с нейронными алгоритмами. Дай бог им удачи.

Уже в доступе:

ГА Воронежской области (ГАВО)
ГА Вологодской области (ГАВО)
ГА Астраханской области (ГААО)
ГА Нижегородской области в г. Арзамас (ГАНО г. Арзамас)
Главархив г. Москва (ЦИАМ)

Но где? Есть ссылка?
Так вижу только московские архивы.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.