Бывает, что мне нужно провести несколько экспериментов по распознаванию текста на довольно зашумленных изображениях при помощи Tesseract с одним условием – надо сделать быстро. Но совсем плохой результат получить тоже не хочется. Поэтому, чтобы улучшить точность распознавания, нужно очистить исходное изображение от шумов и посторонних объектов. Для этого можно либо написать чутка кода, либо использовать утилиту convert из ImageMagick, либо можно взять вот этот скрипт textcleaner, который, по факту, является надстройкой над convert, но простой как три копейки и сильно ускоряет работу. Вся документация подробно изложена на официальной страничке. Пример удаления бэкграунда, очистки текста, поворота и обрезки изображения: ./textcleaner -g -e stretch -f 30 -o 17 -t 15 -u -s 2 -T -p 20 -c 5 infile.jpg outfile.jpg Было: Стало: Дальше запускаем сам tesseract (у меня 4ая бета с LSTM моделями): tesseract outfile.jpg stdout -l eng --oem 1 И получаем уже чистый текст: Clarification
In the last edi