Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале. Первые шаги на пути...
Программы оптического распознавания символов (OCR) позволяют преобразовывать нередактируемые форматы документов, такие как PDF, изображения или бумажные документы, в машиночитаемые форматы с возможностью редактирования и поиска. Приложения OCR обычно используются для захвата текста из PDF-файлов и изображений и преобразования его в редактируемые форматы, такие как Word, Excel или обычный текстовый файл. OCR также используется для оцифровки файлов и документов, чтобы сделать их доступными для поиска или выполнения перевода файлов на другой язык...