Найти тему
87 подписчиков

Нейросеть поможет прочитать исторические рукописи


«Яндекс» научил нейросети расшифровывать рукописные тексты в дореволюционных исторических документах на основе массива данных фондов Главархива Москвы. У компании уже была своя технология распознавания печатного текста, именно она и легла в основу получившегося решения. Специалистам удалось за три месяца адаптировать ее для задачи расшифровки рукописей. На реализацию всего проекта «Поиск по архивам» ушло более полугода.

Новый алгоритм построен на основе системы оптического распознавания символов, он учитывает особенности почерка, узнает буквы дореформенного алфавита и понимает особую структуру архивных документов. Помимо документов Главархива для обучения сервиса использовали также десятки миллионов сгенерированных примеров. Для удобного поиска запрос можно вбивать на современном русском языке, система его поймет.

«Конечно, модель может иногда совершать ошибки, ведь даже специалисту порой сложно разобрать, что написано в рукописях XVIII века. Но нейросети продолжают учиться, и в будущем будут расшифровывать тексты еще лучше», — отметили в пресс-службе «Яндекса».

Подробнее: stimul.online/...isi
Около минуты