7 подписчиков

Распознавание текста в PDF (OCR): как сделать скан «живым

10 февраля10 фев

1 мин

» Если в PDF не выделяется текст, поиск (Ctrl+F/Cmd+F) ничего не находит, а копирование даёт «кашу» — это скан-картинка. Решение: сделать OCR и добавить текстовый слой (лучший вариант для архива — «текст под изображением»: внешний вид сохраняется, поиск работает). Быстрая проверка - Попробуйте выделить пару слов и найти их поиском. Не получается — нужен OCR. Перед распознаванием (сильно влияет на точность) - Сканируйте в 300 dpi (600 dpi — для очень мелкого шрифта). - Выравнивайте страницы: поворот/перекос ухудшают результат. - Выбирайте точный язык (лишние языки снижают точность). - Рукописный текст почти всегда требует ручной правки. Чем распознавать - Для «в пару кликов» и проверки ошибок — офисные OCR‑инструменты. - Для сложных макетов/таблиц — решения с упором на точность. - Для разовой задачи без установки — облачное распознавание (учтите конфиденциальность). - Для автоматизации и архивов — CLI: ocrmypdf -l rus+eng --deskew --rotate-pages input.pdf output.pdf Полезно: --skip-

Распознавание текста в PDF (OCR): как сделать скан «живым»

Если в PDF не выделяется текст, поиск (Ctrl+F/Cmd+F) ничего не находит, а копирование даёт «кашу» — это скан-картинка. Решение: сделать OCR и добавить текстовый слой (лучший вариант для архива — «текст под изображением»: внешний вид сохраняется, поиск работает).

Быстрая проверка

- Попробуйте выделить пару слов и найти их поиском. Не получается — нужен OCR.

Перед распознаванием (сильно влияет на точность)

- Сканируйте в 300 dpi (600 dpi — для очень мелкого шрифта).

- Выравнивайте страницы: поворот/перекос ухудшают результат.

- Выбирайте точный язык (лишние языки снижают точность).

- Рукописный текст почти всегда требует ручной правки.

Чем распознавать

- Для «в пару кликов» и проверки ошибок — офисные OCR‑инструменты.

- Для сложных макетов/таблиц — решения с упором на точность.

- Для разовой задачи без установки — облачное распознавание (учтите конфиденциальность).

- Для автоматизации и архивов — CLI:

ocrmypdf -l rus+eng --deskew --rotate-pages input.pdf output.pdf

Полезно: --skip-text, --redo-ocr.

После OCR проверьте

- 2–3 страницы: фамилии, цифры, даты, реквизиты. Если пробелы «ломаются» — попробуйте переделать OCR или экспортировать в DOCX/TXT.

Вывод: OCR — это не магия, а качество входа + правильные настройки; «текст под изображением» обычно самый практичный формат.

Подробнее: https://www.ivan-kornev.ru/articles/windows/apps/pdf-ocr-text-recognition