766 подписчиков

Извлечение текста из изображения с помощью Python

3 декабря 20233 дек 2023

~1 мин

Распознание и извлечение текста из графического файла- задача весьма нетривиальная и решается, конечно же, не без помощи нейронных сетей. Благо, в наше время новый велосипед на нейронных колесах придумывать совсем необязательно, и задачу можно решить за пару минут, использовав готовый модуль для оптического распознания символов на Python "EasyOCR".

Для использования модуля необходимо его установить командой: pip install easyocr

Далее в теле скрипта необходимо создать объект Reader с аргументом в виде искомого языка (можно указывать сразу несколько аргументов).

У созданного объекта необходимо вызвать метод readtext, которому передать путь к графическому файлу, откуда необходимо извлечь текст. Это не единственный аргумент, который принимает метод, можно настроить точность, разбивку на параграфы и прочее.

Всё, результат получен, осталось его только вывести в консоль или записать в текстовый файл любым привычным способом. Ниже пример скрипта.