Найти в Дзене

Распознование текста в AltLinux

История данной программы, а точнее ядра началась в компании Hewlett-Packard. Разработка велась с 1985 по 1994 год и в дальнейшем этот проект был отложен на полочку до лучших времён. По одним данным в августе 2006 года Google купил её и открыл исходные тексты, а в других источниках говорится, что в 2005 году компания HP сама открыла доступ к исходному коду, и с 2006 года Google допиливала это ядро. Кому верить решать вам. На сегодняшний момент пакет Tesseract содержит движок распознавания текста - libtesseract и программу командной строки - tesseract. Последняя версия 5.2. У этого движка есть несколько графических оболочек (программ для работы с этим движком). Изначально в Альте предустановленна программа gImageReader (разработка и обновления ведутся). Существует еще минимум две оболочки это OCRfeeder(разработка и обновления ведутся) и программа Yagf (сайт программы не актуален последние обновление 14-16 год) Приступим к мини тестированию. Для образца была использована вот эта страница

История данной программы, а точнее ядра началась в компании Hewlett-Packard. Разработка велась с 1985 по 1994 год и в дальнейшем этот проект был отложен на полочку до лучших времён. По одним данным в августе 2006 года Google купил её и открыл исходные тексты, а в других источниках говорится, что в 2005 году компания HP сама открыла доступ к исходному коду, и с 2006 года Google допиливала это ядро. Кому верить решать вам.

На сегодняшний момент пакет Tesseract содержит движок распознавания текста - libtesseract и программу командной строки - tesseract. Последняя версия 5.2. У этого движка есть несколько графических оболочек (программ для работы с этим движком). Изначально в Альте предустановленна программа gImageReader (разработка и обновления ведутся).

Существует еще минимум две оболочки это OCRfeeder(разработка и обновления ведутся) и программа Yagf (сайт программы не актуален последние обновление 14-16 год)

Приступим к мини тестированию. Для образца была использована вот эта страница из сети:

-3

Результаты распознавания конечно не восторг.

1. Yagf пока не удалось заставить распознавать
2. Ocrfeeder выдал вот такой результат

-4

3. GImageReader выдал следующее

-5

Подводя итоги выражу своё мнение. Программы есть, но уровень их не очень. Про таблицы можно забыть. Есть и положительный момент при весь текст одного стиля, а не блоками, которые потом тоже нужно под общую гребенку еще причёсывать. Качество распознавания можно сравнить на фото, коррекции не проводил. Скриншот как было сделал.

Возможно при наличии времени и желания можно допилить, но для простого пользователя пока только такой результат.

Если кто-то знает еще программы для данной темы или работал с ними прошу высказаться. Если нет другого ПО попробую составить инструкцию по использованию с тем, что есть.

Спасибо за внимание. Если нравится канал поддержите подпиской или лайком.