Добавить в корзинуПозвонить
Найти в Дзене
Московские Новости

В Новгороде создали систему для автоматического распознавания текстов берестяных грамот

Систему искусственного интеллекта для автоматического распознавания и интерпретации текстов средневековых грамот разработали в НовГУ. Разработка попала в число лидеров грантового конкурса «Студенческий стартап» Фонда содействия инновациям. На реализацию проекта выделен 1 млн рублей. Большинство берестяных грамот нашли именно на Новгородской земле — это связанно с так называемым мокрым слоем в почве, он хорошо сохраняет органику. Древние славяне часто использовали бересту для письма — она была более доступна, чем пергамент.
    Фото: Пресс-служба НовГУ / Иван Филиппов
Фото: Пресс-служба НовГУ / Иван Филиппов

Систему искусственного интеллекта для автоматического распознавания и интерпретации текстов средневековых грамот разработали в НовГУ. Разработка попала в число лидеров грантового конкурса «Студенческий стартап» Фонда содействия инновациям. На реализацию проекта выделен 1 млн рублей.

  • Специфика древнерусских символов значительно осложняет их распознавание. Между тем только в Великом Новгороде уже нашли более 1200 берестяных грамот.
  • Автоматических решений для расшифровки подобных текстов пока нет. Аналоги недостаточно точны либо нестабильны или требуют больших, размеченных вручную датасетов. Разработка НовГУ должна решить эту задачу.
  • Новую нейросеть обучали на пяти «эталонных» грамотах. Буквы на них разметили вручную. В датасет также вошли автоматические вырезки букв, сделанные детектором.
  • Детектор обнаруживает и объединяет боксы вокруг букв. Модель не может принять полную грамоту и сразу дать расшифровку, поэтому ей надо предлагать буквы по отдельности, после собирая их в строки. Затем идут сегментация, поиск контуров, объединение соседних боксов по дистанции, соотношение площадей. Для распознавания применяется сверточная сеть ResNet-18, адаптированная под вырезки 64х64 пикселя. Все вырезки букв сохраняются в PNG-файлах.
  • Уже разработано приложение: оно позволяет загружать фото, автоматически детектировать боксы, распознавать буквы и экспортировать полученные результаты.
  • Полный прогон одного изображения занимает до 2 секунд. После всех корректировок точность распознавания составляет 98%. Система уже готова к интеграции в архивные и научные проекты по изучению древнерусских текстов. Модель, обученная на грамотах, хорошо работает и с рукописями.

Большинство берестяных грамот нашли именно на Новгородской земле — это связанно с так называемым мокрым слоем в почве, он хорошо сохраняет органику. Древние славяне часто использовали бересту для письма — она была более доступна, чем пергамент.