39 подписчиков

OCR — Оптическое распознавание символов

8 июля 20208 июл 2020

3 мин

Оптическое распознавание символов – особая технология, позволяющая трансформировать отсканированные файлы, PDF-документы и изображения в текстовые форматы с возможностью поиска и редактирования. Кроме того, в понятия “оптическое распознавание символов” сейчас вкладываются исследования в области Artificial intelligence, компьютерного зрения и распознавания образов. Элементарный пример: партнер или клиент прислал вам бумажный документ (статья/брошюра/листовка/договор). Одной отсканированной версии вам будет недостаточно для изменения документа. Растровое изображение, чем и является скан, – совокупность множества цветных или черно-белых точек, не содержащая символов. Для извлечения и изменения данных необходимо специальное программное обеспечение, способное распознать и “разделить” символы, определить буквы и сформировать из них слова, правильно распределить их в предложения и абзацы. В дальнейшем это и даст возможность работать с информацией, содержащейся в исходном документе. История

Оглавление

История
Особенности и виды технологии

Оптическое распознавание символов – особая технология, позволяющая трансформировать отсканированные файлы, PDF-документы и изображения в текстовые форматы с возможностью поиска и редактирования. Кроме того, в понятия “оптическое распознавание символов” сейчас вкладываются исследования в области Artificial intelligence, компьютерного зрения и распознавания образов.

Элементарный пример: партнер или клиент прислал вам бумажный документ (статья/брошюра/листовка/договор). Одной отсканированной версии вам будет недостаточно для изменения документа. Растровое изображение, чем и является скан, – совокупность множества цветных или черно-белых точек, не содержащая символов. Для извлечения и изменения данных необходимо специальное программное обеспечение, способное распознать и “разделить” символы, определить буквы и сформировать из них слова, правильно распределить их в предложения и абзацы. В дальнейшем это и даст возможность работать с информацией, содержащейся в исходном документе.

История

История оптического распознавания символов уходит в конец тридцатых годов прошлого века, когда немец Густав Таушек первым зарегистрировал патент на технологию оптического распознавания текста. Спустя двадцать лет, американский криптоаналитик Дэвид Шепард создал машину, которая решала подобные задачи. Впоследствии Шепард стал основателем компании, которая первая в мире выпустила собственные системы OCR. Одним из первых покупателей систем был журнал Readerʼs Digest, ставший одним из самых активных её пользователей.

Следующий виток развития OCR случился в 1974 году с созданием компании «Kurzweil Computer Products». Рэй Курцвейль, основатель, сделал акцент на развитие системы Optical Character Recognition, способной распознавать текст независимо от шрифта. Задумка заключалась в создании особой машины для незрячих людей, которая распознавала бы тексты и читала их вслух. Итоговый продукт был представлен в 1976 году, а в 1978 Курцвейль продал компанию Xerox Corporation.

В 1993 году на рынок вышел программный продукт для распознавания текста от ABBYY, получивший широкое распространение. В частности, на её основе была создана ABBYY FineReader. Технологию лицензируют крупнейшие мировые компании, среди которых EMC, Samsung и др.

Особенности и виды технологии

Источники данных могут быть разными – от сканов документов и фотографий отчетов до визиток, счетов-фактур и цифровых квитанций.

Как правило, алгоритм всех систем достаточно похож: OCR преобразует полученное изображение (скан, фото и т.д) при помощи палитры двух цветов, один из которых должен быть значительно темнее другого, поэтому чаще всего используется черно-белая гамма. Когда все страницы переведены в два цвета, начинается анализ: светлые участки документов определяются как фон, а темные – как совокупность символов, которые нужно распознать.

Существующие программы распознавания могут иметь разные методы работы, но, как правило, все они базируются на двух алгоритмах:

проработка материала идет по примерам;
анализ идет на основе прописанных правил относительно каждого знака. Программа оценивает отдельный символ с заданными параметрами начертания той или иной буквы/цифры. Например, заглавная буква “М” может обозначаться как две вертикальные линии, соединенные двумя диагоналями посередине.

На текущий момент существует несколько видов OCR-систем, которые отличаются по тонкостям, стоимости и скорости работы:

OCR – классическая версия функционала, рассчитанная на “перевод” и распознавание текста с отсканированных изображений;
ICR – определение и перевод в текстовый формат раздельных печатных символов от руки или напечатанных витиеватым шрифтом;
OMR – распознавание отметок (галочки, маркеры, круги, крестики);
IWR – распознавание в рамках контекста. В отличие от предыдущих систем, фокусирующихся на конкретных символах, IWR способны определять слова или предложения. Считается, что такой вид OCR способен распознавать наиболее подробно и наименее ошибочно все рукописные тексты.