191 подписчик

Распознование текста в AltLinux

7 декабря 20227 дек 2022

153

1 мин

История данной программы, а точнее ядра началась в компании Hewlett-Packard. Разработка велась с 1985 по 1994 год и в дальнейшем этот проект был отложен на полочку до лучших времён. По одним данным в августе 2006 года Google купил её и открыл исходные тексты, а в других источниках говорится, что в 2005 году компания HP сама открыла доступ к исходному коду, и с 2006 года Google допиливала это ядро. Кому верить решать вам. На сегодняшний момент пакет Tesseract содержит движок распознавания текста - libtesseract и программу командной строки - tesseract. Последняя версия 5.2. У этого движка есть несколько графических оболочек (программ для работы с этим движком). Изначально в Альте предустановленна программа gImageReader (разработка и обновления ведутся). Существует еще минимум две оболочки это OCRfeeder(разработка и обновления ведутся) и программа Yagf (сайт программы не актуален последние обновление 14-16 год) Приступим к мини тестированию. Для образца была использована вот эта страница

На сегодняшний момент пакет Tesseract содержит движок распознавания текста - libtesseract и программу командной строки - tesseract. Последняя версия 5.2. У этого движка есть несколько графических оболочек (программ для работы с этим движком). Изначально в Альте предустановленна программа gImageReader (разработка и обновления ведутся).

Существует еще минимум две оболочки это OCRfeeder(разработка и обновления ведутся) и программа Yagf (сайт программы не актуален последние обновление 14-16 год)

Приступим к мини тестированию. Для образца была использована вот эта страница из сети:

Результаты распознавания конечно не восторг.

1. Yagf пока не удалось заставить распознавать
2. Ocrfeeder выдал вот такой результат

3. GImageReader выдал следующее

Подводя итоги выражу своё мнение. Программы есть, но уровень их не очень. Про таблицы можно забыть. Есть и положительный момент при весь текст одного стиля, а не блоками, которые потом тоже нужно под общую гребенку еще причёсывать. Качество распознавания можно сравнить на фото, коррекции не проводил. Скриншот как было сделал.

Возможно при наличии времени и желания можно допилить, но для простого пользователя пока только такой результат.

Если кто-то знает еще программы для данной темы или работал с ними прошу высказаться. Если нет другого ПО попробую составить инструкцию по использованию с тем, что есть.

Спасибо за внимание. Если нравится канал поддержите подпиской или лайком.