Скоро нас всех заменит ChatGPT и другие результаты обучения искусственного интеллекта. Или не заменят — если мы научимся правильно ими пользоваться. Поможет ли нейронная сеть историкам, социологам и всем, кто интересуется архивным поиском? Рассказываем в нашем материале.
Что предлагает Яндекс
С каждым днем разработчики нейросетей уходят все дальше, открывая новые возможности систем. В конце января этого года компания «Яндекс» запустила новый сервис «Поиск по архивам», в котором нейросети анализируют и расшифровывают архивные записи различных времен. Этот сервис — сборник архивных документов, начиная с середины XVIII века, заканчивая первой половиной XX века. В базе каталога более 4 миллионов страниц исторических документов с текстовой расшифровкой.
Старые рукописи обычный человек порой просто не может прочитать. Нейросеть, обученная на множестве реальных примеров
XVIII-XIX вв., в миг превратит это в печатный текст.
Искать в «Поиске» можно по фамилии или населенному пункту, а можно просто ознакомиться с каталогом, отфильтровав записи по годам, описям и архивам.
Какие архивы добавили в сервис
На текущий момент в базе системы записи из пяти архивов:
- Центральный государственный архив г. Москвы;
- Государственный архив Новгородской области;
- Объединенный государственный архив Оренбургской области;
- Центральный государственный архив Республики Мордовия;
- Главное архивное управления Московской области.
Со временем базу данных будут расширять, и в системе появятся отсканированные файлы других хранилищ.
Как пользоваться сервисом
Алгоритм работы построен таким образом, что система автоматически распознает буквы, учитывая особенности почерка и характерные черты того времени. Рядом со сканом выводится печатная версия документа. При наведении курсора текст подсвечивается, и пользователь видит, какая часть документа расшифрована.
Вот несколько рекомендаций, как использовать возможности сервиса:
- Используйте знаки и буквы соответствующего исторического периода. Например, «ъ» на конце слов.
- Если вы ищите в метрических и духовных книгах, то лучше искать по населенному пункту, так как в таких документах фамилию человека не всегда указывали.
- Если вы не уверены, как точно пишется имя/фамилия/населенный пункт, используйте все варианты, тогда программа подберет для вас большее количество записей.
Нейронная сеть, которую разработчики использовали для создания нового сервиса, основана на оптическом распознавании символов. Елена Бубнова, руководитель «Поиска Яндекса» считает, что нейросеть способна расшифровать одну страницу дореволюционного текста всего за несколько секунд. Человек же потратит на эту задачу не меньше получаса.
Разработчики системы заявили, что создавали программу не для развлечения, а для того, чтобы упростить работу историкам, социологам, демографам и краеведам.
Попробовать сервис
Другие сервисы для архивного поиска
«Яндекс» не первый придумал эту систему. Первый онлайн-сервис по распознаванию рукописного текста был rehand.ru. Сервис до сих пор находится в тестовом режиме и не особо пользуется популярностью.
Компания «Genotek» в 2022 году сообщила, что разработала программу, которая ищет по сканам метрических данных из Главархива Москвы. Попробовать сервис можно здесь.
Нейросеть просканировала более 2 миллионов документов. Там есть данные о венчаниях, крещениях и отпеваниях, а также данные о семьях в разные периоды времени. В основном это документы XVIII века. Из-за изменений территориального деления государства, также встречаются записи Рязанской, Владимирской и Тульских губерний.
Александр Ракитько, директор по продукту «Genotek» заявил, что компания не останавливается на достигнутом, будет дальше развиваться и расширять географию. Genotek планирует просканировать и оцифровать все архивы страны. Также команда программистов работает по улучшению поиска и уменьшению ошибок системы.
«Архив по данным» только развивается, есть некоторые недоделки, недочеты. Но система новая, и дальше нейросеть будет только расти.
Нейросеть не всегда может найти документы. Для этого есть профессиональные архивисты. Если вам нужна помощь такого специалиста, то обращайтесь в наш архивный центр.
Как вы считаете, заменят ли нас нейросети или станут нашим незаменимым инструментом? Делитесь мнением в комментариях. И не забудьте подписаться на наш канал, чтобы не пропустить новые материалы об архивном поиске и втором гражданстве :)