Оптическое распознавание символов Python. Оптическое распознавание символов включает в себя обнаружение текстового содержимого на изображениях и перевод изображений в закодированный текст, который компьютер может легко понять. Изображение, содержащее текст, сканируется и анализируется, чтобы идентифицировать символы в нем. После идентификации символ преобразуется в машинно-кодированный текст. Python-tesseract-это инструмент оптического распознавания символов (OCR) для python. Pytesseract может считывать все типы изображений. Этот инструмент также полезен в качестве автономного сценария вызова для tesseract, поскольку он может читать все типы изображений, включая jpeg, png, gif, bmp, tiff и другие.

try:

from PIL import Image

except ImportError:

import Image

import pytesseract

def ocr_core(filename):

"""

This function will handle the core OCR processing of images.

"""

text = pytesseract.image_to_string(Image.open(filename)) # We'll use Pillow's Image class to open the image and pytesseract to detect the string in the image

return text

print(ocr_core('images/ocr_example_1.png'))

Оптическое распознавание символов Python.

30 мая 2022

353 просмотра