Добавить в корзинуПозвонить
Найти в Дзене
Два направления.

Один bat-файл — и все файлы DJVU и PDF с текстовым слоем

Без Acrobat, без онлайн-сервисов. Скачали, положили рядом с файлами, запустили — готово. PDF и DJVU — основные форматы электронных копий книг и журналов в интернете. Исторические издания, старые журналы, дореволюционные книги — всё это можно найти в Google Books и других архивах. Но скачанный файл часто оказывается просто набором картинок: текст не выделить, не скопировать, и главное — не найти через поиск. Я собираю такие материалы и индексирую их в Archivarius 3000 — это десктопный поисковик по личной библиотеке, который находит нужное мгновенно. Но работает он только с файлами где есть текстовый слой. Вот и вся причина. Обрабатывать каждый файл вручную в отдельной программе — та ещё рутина. Мой bat-файл делает всё сам: конвертирует DJVU в PDF и прогоняет через OCR. Кладёте рядом с файлами, запускаете, отвечаете на три вопроса — и идёте пить чай. Tesseract распознаёт текст только для тех языков, словари которых установлены. Для русского и дореформенного русского словари нужно скачать
Оглавление
Без Acrobat, без онлайн-сервисов. Скачали, положили рядом с файлами, запустили — готово.

PDF и DJVU — основные форматы электронных копий книг и журналов в интернете. Исторические издания, старые журналы, дореволюционные книги — всё это можно найти в Google Books и других архивах. Но скачанный файл часто оказывается просто набором картинок: текст не выделить, не скопировать, и главное — не найти через поиск.

Я собираю такие материалы и индексирую их в Archivarius 3000 — это десктопный поисковик по личной библиотеке, который находит нужное мгновенно. Но работает он только с файлами где есть текстовый слой. Вот и вся причина.

Обрабатывать каждый файл вручную в отдельной программе — та ещё рутина. Мой bat-файл делает всё сам: конвертирует DJVU в PDF и прогоняет через OCR. Кладёте рядом с файлами, запускаете, отвечаете на три вопроса — и идёте пить чай.

Нужные программы

  1. DjVuLibre — конвертация DJVU → PDF
  2. Ghostscript — сжатие и оптимизация PDF
  3. Python 3 — нужен для ocrmypdf
  4. ocrmypdf — распознавание текста
  5. Tesseract — движок OCR

Установка языков для Tesseract

Tesseract распознаёт текст только для тех языков, словари которых установлены. Для русского и дореформенного русского словари нужно скачать и установить вручную. Для других языков — английского, немецкого, французского и многих других — проще выбрать их прямо в установщике Tesseract: на шаге выбора компонентов раскройте список языков и поставьте галочку напротив нужного.

Шаг 1. Скачайте нужные файлы

  • rus.traineddata Современный русский язык
  • orus.traineddata Дореформенный русский (книги до 1918 г.) — ѣ, і, ъ на конце слов
  • Другие языки можно установить прямо из установщика Tesseract — на шаге выбора компонентов раскройте раздел «Additional language data» и отметьте нужные.

Шаг 2. Найдите папку tessdata

  • Обычно она находится здесь: C:\Program Files\Tesseract-OCR\tessdata\

Шаг 3. Скопируйте файлы в tessdata

Перетащите скачанные .traineddata файлы в эту папку. Может потребоваться подтверждение прав администратора — нажмите «Продолжить».

Коды других языков для скрипта (пункт «6 — Другой»)

  • Белорусский — bel
  • Английский — eng
  • Немецкий — deu
  • Французский — fra

Полный список кодов всех языков: github.com/tesseract-ocr/tessdata

После установки словарей в скрипте выберите нужный язык из списка или пункт «6 — Другой» и введите код вручную.

Как пользоваться

  1. Скачайте bat-файл — ссылка в конце статьи. Никакой установки — это обычный текстовый файл с командами.
  2. Положите рядом с файлами — скопируйте bat-файл в папку с вашими DJVU или PDF. Скрипт обработает всё что найдёт рядом с собой.
  3. Запустите двойным кликом — откроется окно с вопросами: язык OCR, качество файла, что делать с оригиналами. Отвечаете цифрой и Enter.
  4. Дождитесь завершения — рядом с каждым исходным файлом появится новый PDF с суффиксом _ocr.pdf — он уже с текстовым слоем.

Что спросит скрипт

Три вопроса перед стартом:

  1. Язык OCR — русский, английский, оба сразу, дореформенный русский и другие. Для других языков выберите пункт «6» и введите код вручную.
  2. Качество выходного файлабаланс размера и качества, минимальный размер или максимальное качество.
  3. Что делать с оригиналами — оставить, удалить или переместить в папку original.
Если статья помогла — буду рад комментарию или вопросу. Если что-то пошло не так при установке или запуске — пишите, разберёмся.

Версия 1 - Bat файл

Сначала конвертирует все DJVU в PDF (пропуская уже существующие), а затем отдельно прогоняет все PDF через OCR.

Версия 2 - Bat файл

Главное отличие от версии 1:
Обработка каждого DJVU полностью (конвертация → OCR → сжатие → удаление промежуточного PDF) до перехода к следующему файлу. Для экономии места на диске. 1.04.2026.