Сервис пригодится историкам, социологам, демографам и всем, кто ищет сведения о своей семье.
- Пользователи могут протестировать технологию в сервисе «Поиск по архивам» — это электронный каталог архивных документов и материалов от середины XVIII до начала XX века, в базе которого более 2,5 млн страниц документов. Об этом рассказала компания.
- Пользователи могут искать записи через поиск или по каталогу, отфильтровав их по годам, архивам, фондам и описям. Например, в базе можно найти материалы с упоминанием определённой фамилии или населённого пункта.
- Алгоритм построен на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и «понимает особую структуру архивных документов».
- Нейросеть обучалась на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Размечали и расшифровывали материалы, а затем контролировали качество распознавания эксперты.
- Разработчики обучали нейросеть на материалах Главархива Москвы, сейчас в базе также есть архивы Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.
Пробуем поискать в сервисе "Яндекса" свою фамилию.
Ну что сказать, работает!!!
Кое где пока криво, разумеется нейросети далеко не всегда правильно читают рукописный текст и больше половины это не то что рядом, а вообще не туда, написано совсем другое.
Да и архивов пока в систему затянули единицы. НО...
Я думаю это только начало и дальше будет и больше архивов и алгоритмы начнут работать лучше.
#архивы #яндекс #генеалогия #родоведение #нейросети