4765 подписчиков

В МГУ разработали алгоритм поиска ключевых слов в старых рукописных документах

25 марта25 мар

2 мин

Специалисты факультета вычислительной математики и кибернетики МГУ имени М. В. Ломоносова разработали алгоритм, который должен упростить работу с архивными документами. Эта система позволяет автоматически искать ключевые слова в рукописных текстах. В вузе пояснили, что поиск по рукописным источникам до сих пор остается сложной задачей для систем распознавания. Это связано с ограниченными возможностями анализа почерка, а также с тем, что такие системы не всегда учитывают сложную структуру письма, включая расположение слов на странице. Новый метод помогает находить ключевые слова и ранжировать найденные фрагменты по степени соответствия запросу, сообщает ТАСС. Как рассказали в МГУ, авторы предложили подход, при котором рукописный текст рассматривается как последовательность отдельных штрихов. Речь идет о базовых элементах письма, которые формируются движением пера. Алгоритм сначала делит изображение на штрихи, затем приводит их к нужному виду и классифицирует с использованием математичес

В вузе пояснили, что поиск по рукописным источникам до сих пор остается сложной задачей для систем распознавания. Это связано с ограниченными возможностями анализа почерка, а также с тем, что такие системы не всегда учитывают сложную структуру письма, включая расположение слов на странице. Новый метод помогает находить ключевые слова и ранжировать найденные фрагменты по степени соответствия запросу, сообщает ТАСС.

Как рассказали в МГУ, авторы предложили подход, при котором рукописный текст рассматривается как последовательность отдельных штрихов. Речь идет о базовых элементах письма, которые формируются движением пера. Алгоритм сначала делит изображение на штрихи, затем приводит их к нужному виду и классифицирует с использованием математического описания формы.

После этого система сопоставляет последовательности штрихов из запроса и документа. Такой способ позволяет находить совпадения и оценивать их точность. Авторы сообщили, что в экспериментах с реальными рукописями была подтверждена высокая точность обнаружения заданных элементов.

Профессор кафедры математического прогнозирования ВМК МГУ Леонид Местецкий отметил: «Мы предлагаем рассматривать рукописный текст как структурированный набор штрихов, отражающих сам процесс письма. Такой подход позволяет обойти ограничения классического распознавания и работать напрямую с изображениями рукописей. Это особенно важно для архивов и исторических документов, где сохранение визуальных особенностей текста имеет принципиальное значение». По мнению разработчиков, эта технология поможет упростить работу с архивными документами, рукописями и историческими материалами, представленными в виде сканов и фотографий.