835 подписчиков

Один bat-файл — и все файлы DJVU и PDF с текстовым слоем

6 апреля6 апр

3 мин

Без Acrobat, без онлайн-сервисов. Скачали, положили рядом с файлами, запустили — готово. PDF и DJVU — основные форматы электронных копий книг и журналов в интернете. Исторические издания, старые журналы, дореволюционные книги — всё это можно найти в Google Books и других архивах. Но скачанный файл часто оказывается просто набором картинок: текст не выделить, не скопировать, и главное — не найти через поиск. Я собираю такие материалы и индексирую их в Archivarius 3000 — это десктопный поисковик по личной библиотеке, который находит нужное мгновенно. Но работает он только с файлами где есть текстовый слой. Вот и вся причина. Обрабатывать каждый файл вручную в отдельной программе — та ещё рутина. Мой bat-файл делает всё сам: конвертирует DJVU в PDF и прогоняет через OCR. Кладёте рядом с файлами, запускаете, отвечаете на три вопроса — и идёте пить чай. Tesseract распознаёт текст только для тех языков, словари которых установлены. Для русского и дореформенного русского словари нужно скачать

Оглавление

Нужные программы
Установка языков для Tesseract
Как пользоваться

Без Acrobat, без онлайн-сервисов. Скачали, положили рядом с файлами, запустили — готово.

PDF и DJVU — основные форматы электронных копий книг и журналов в интернете. Исторические издания, старые журналы, дореволюционные книги — всё это можно найти в Google Books и других архивах. Но скачанный файл часто оказывается просто набором картинок: текст не выделить, не скопировать, и главное — не найти через поиск.

Я собираю такие материалы и индексирую их в Archivarius 3000 — это десктопный поисковик по личной библиотеке, который находит нужное мгновенно. Но работает он только с файлами где есть текстовый слой. Вот и вся причина.

Обрабатывать каждый файл вручную в отдельной программе — та ещё рутина. Мой bat-файл делает всё сам: конвертирует DJVU в PDF и прогоняет через OCR. Кладёте рядом с файлами, запускаете, отвечаете на три вопроса — и идёте пить чай.

Нужные программы

DjVuLibre — конвертация DJVU → PDF
Ghostscript — сжатие и оптимизация PDF
Python 3 — нужен для ocrmypdf
ocrmypdf — распознавание текста
Tesseract — движок OCR

Установка языков для Tesseract

Tesseract распознаёт текст только для тех языков, словари которых установлены. Для русского и дореформенного русского словари нужно скачать и установить вручную. Для других языков — английского, немецкого, французского и многих других — проще выбрать их прямо в установщике Tesseract: на шаге выбора компонентов раскройте список языков и поставьте галочку напротив нужного.

Шаг 1. Скачайте нужные файлы

rus.traineddata Современный русский язык
orus.traineddata Дореформенный русский (книги до 1918 г.) — ѣ, і, ъ на конце слов
Другие языки можно установить прямо из установщика Tesseract — на шаге выбора компонентов раскройте раздел «Additional language data» и отметьте нужные.

Шаг 2. Найдите папку tessdata

Обычно она находится здесь: C:\Program Files\Tesseract-OCR\tessdata\

Шаг 3. Скопируйте файлы в tessdata

Перетащите скачанные .traineddata файлы в эту папку. Может потребоваться подтверждение прав администратора — нажмите «Продолжить».

Коды других языков для скрипта (пункт «6 — Другой»)

Белорусский — bel
Английский — eng
Немецкий — deu
Французский — fra

Полный список кодов всех языков: github.com/tesseract-ocr/tessdata

После установки словарей в скрипте выберите нужный язык из списка или пункт «6 — Другой» и введите код вручную.

Как пользоваться

Скачайте bat-файл — ссылка в конце статьи. Никакой установки — это обычный текстовый файл с командами.
Положите рядом с файлами — скопируйте bat-файл в папку с вашими DJVU или PDF. Скрипт обработает всё что найдёт рядом с собой.
Запустите двойным кликом — откроется окно с вопросами: язык OCR, качество файла, что делать с оригиналами. Отвечаете цифрой и Enter.
Дождитесь завершения — рядом с каждым исходным файлом появится новый PDF с суффиксом _ocr.pdf — он уже с текстовым слоем.

Что спросит скрипт

Три вопроса перед стартом:

Язык OCR — русский, английский, оба сразу, дореформенный русский и другие. Для других языков выберите пункт «6» и введите код вручную.
Качество выходного файла — баланс размера и качества, минимальный размер или максимальное качество.
Что делать с оригиналами — оставить, удалить или переместить в папку original.

Если статья помогла — буду рад комментарию или вопросу. Если что-то пошло не так при установке или запуске — пишите, разберёмся.

Версия 1 - Bat файл

Сначала конвертирует все DJVU в PDF (пропуская уже существующие), а затем отдельно прогоняет все PDF через OCR.

Версия 2 - Bat файл

Главное отличие от версии 1:
Обработка каждого DJVU полностью (конвертация → OCR → сжатие → удаление промежуточного PDF) до перехода к следующему файлу. Для экономии места на диске. 1.04.2026.

Версия 3 - Bat файл

Интерактивная: меню настроек (язык, режим OCR, сжатие, действия с исходниками), авторежим выбора метода сжатия, проверка зависимостей, поддержка --skip-doc.