1124 подписчика

LiteParse: текст из PDF и сканов - без чужих серверов

ВчераВчера

4 мин

Бесплатная утилита, которая работает только на вашем компьютере.

Есть одна ситуация, знакомая многим. Вам прислали скан договора в PDF. Вы пытаетесь выделить текст мышкой - а он не выделяется. Весь документ представляет собой обычную картинку: страница сфотографирована или отсканирована, а не набрана на компьютере. Нужно либо перепечатывать вручную, либо искать способ вытащить текст

Бесплатная утилита, которая работает только на вашем компьютере.

Оглавление

Сканы, PDF-ки, таблицы Excel - в одном инструменте
Откуда берётся точность и зачем нужен LibreOffice
Честно о командной строке и пороге входа

Бесплатная утилита, которая работает только на вашем компьютере.

Первая мысль - загрузить в какой-нибудь онлайн-сервис. Их достаточно, многие бесплатны. Но здесь стоит задать себе вопрос, который со временем становится важнее: что происходит с файлом после загрузки? Договор с личными данными, скан паспорта, бухгалтерские документы - всё это уходит на серверы компании, которую вы, вероятно, видите первый раз в жизни. То, что они делают с этими файлами дальше, мелким шрифтом написано не всегда.

LiteParse - бесплатная программа с открытым кодом от команды LlamaIndex - решает ту же задачу иначе: всё происходит на вашем компьютере, без подключения к интернету. Файлы никуда не уходят.

Сканы, PDF-ки, таблицы Excel - в одном инструменте

Список форматов, с которыми работает LiteParse, оказался шире, чем я ожидал. Помимо очевидных PDF-файлов - в том числе тех, где текст «нарисован» поверх страницы, - программа берётся за документы Word, таблицы Excel, презентации PowerPoint, а также обычные изображения: JPG, PNG, TIFF, WebP и другие.

Для распознавания текста на изображениях внутри уже встроен движок Tesseract - это популярная бесплатная технология с открытым кодом, которую используют десятки других программ. Он включён по умолчанию и работает сразу после установки без каких-либо дополнительных настроек. Если нужна более высокая точность - можно подключить альтернативные движки: EasyOCR или PaddleOCR. Это уже для тех, кто понимает, зачем ему это нужно.

Есть возможность, которую я не ожидал найти здесь бесплатно: программа определяет точное положение каждого слова на странице. То есть на выходе вы получаете не просто поток текста, а информацию о том, где именно на странице находится каждый фрагмент. Для ручного копирования это избыточно, но если вы хотите автоматизировать обработку документов - это принципиально меняет дело.

Другая неочевидная возможность - пакетная обработка. Укажите папку с файлами, и программа пройдётся по всем документам разом, сохранив результат в отдельную директорию. Если у вас накопилось 150 архивных сканов, которые нужно перевести в текст - это сэкономит несколько часов работы.

Результат можно получить в двух форматах: обычный текст или структурированный JSON. Второй вариант удобен, когда данные нужно дальше обрабатывать программой, а не читать глазами.

Откуда берётся точность и зачем нужен LibreOffice

Здесь важно говорить прямо: LiteParse - не универсальное решение для любого PDF.

Разработчики сами честно указывают на странице проекта: инструмент отлично справляется с «чистыми», хорошо структурированными документами. Если PDF создан в Word или другой программе и содержит обычный набранный текст - результат будет качественным. Но если вы работаете с плотными таблицами, документами в несколько колонок, рукописным текстом или низкокачественными сканами с перекосом страницы - точность может разочаровать. Для таких случаев команда разработчиков предлагает свой платный облачный сервис, но это уже совсем другая история.

Ещё одна особенность, о которой стоит знать заранее: для работы с файлами Word, Excel и PowerPoint программе нужен LibreOffice - бесплатный офисный пакет, аналог Microsoft Office. LiteParse использует его в фоне для конвертации этих форматов в PDF перед обработкой. Для изображений понадобится ImageMagick - тоже бесплатный инструмент для работы с картинками. Оба устанавливаются стандартным способом, подробная инструкция есть на странице проекта.

Среди поддерживаемых систем - Windows, macOS и Linux. Версия 1.0.0 вышла 19 марта 2026 года, так что проект совсем свежий.

Честно о командной строке и пороге входа

LiteParse - это не программа с привычным окном и кнопками. Это утилита, которая управляется через командную строку: вы открываете «чёрное окно», пишете команду с именем файла - и получаете текст. Для кого-то это привычно, для кого-то - непривычно.

Для установки понадобится Node.js - это среда, в которой работает программа. Если вы с таким не сталкивались, придётся потратить дополнительные 10-15 минут на установку. Зато дальше всё просто: одна команда в терминале - и утилита установлена. Пошаговая инструкция на странице проекта написана без предположений о ваших технических знаниях.

Программа написана на TypeScript - это язык программирования, широко используемый в веб-разработке. Для конечного пользователя это практически ничего не значит, но поклонники языка оценят.

Реалистичная картина такая: если вы никогда не работали с командной строкой, первые полчаса уйдут на освоение. Дальше работа идёт быстро. Если же вы автоматизируете рабочие процессы - разрабатываете что-то, настраиваете серверы, пишете скрипты - то LiteParse встроится в ваш рабочий поток естественно.

Онлайн-сервисы для разовых задач останутся удобнее: открыл браузер, загрузил, скопировал. Спорить не стану. Но как только документы содержат что-то личное, задача повторяется регулярно или файлов сразу много - локальное решение выигрывает и по удобству, и по контролю над своими данными.

Вопрос к тем, кто работает с документами регулярно: вы когда-нибудь задумывались, что онлайн-конвертер «видит» всё, что вы в него загружаете?

Источник: LiteParse

🔔 Подписывайтесь на КликХак - находим бесплатные программы, которые реально работают.

Гаджеты и электроника

5,73 млн интересуются