8 подписчиков

Как редактировать PDF файлы

В этой статье речь пойдет о том, как перевести (или преобразовать) PDF файл в Word для дальнейшего редактирования. Фактически, речь пойдет о распознавании текста.

PDF - это универсальный формат и в него можно преобразовать как текстовый документ, который будет создан, например, в Word, так и отсканированные страницы книги. Если в первом случае текст в PDF-файле, как правило, остается доступным для выделения и копирования,то в случае с отсканированными страницами приходится прибегать к дополнительным инструментам, позволяющим распознать текст.

С моей точки зрения, лучшей программой распознавания является ABBYY FineReader. В студенческие годы эта программа сэкономила мне массу времени, но с тех пор прошло уже много лет и теперь FineReader - это не только программа для распознавания отсканированного текста, но и мощный инструмент для работы с PDF файлами. Именно поэтому последняя, пятнадцатая по счету, версия программы называется ABBYY FineReader PDF. По сути, все сводится к тому, что мы сейчас просто рассмотрим возможности этой программы.

Работа с PDF как с текстом

Вне зависимости от того, каким образом был создан PDF- файл, FineReader позволяет нам работать с ним также, как и с обычным текстовым документом. Для примера я взял несколько отсканированных книжных страниц довольно плохого качества.

Так как фактически PDF- документ сформирован из изображений, то нам следует его предварительно распознать. Во время распознавания FineReader создает в документе текстовый слой, с которым мы и будем работать в дальнейшем.

Здесь есть два варианта - можем просто распознать документ и программа это сделает полностью автоматически в фоновом режиме, или же воспользоваться специальным OCR-редактором.

Распознавание текста

Если первоначальный документ в довольно хорошем качестве, то можно воспользоваться первым вариантом. В документ будет добавлен текстовый слой и теперь мы сможем с ним работать также, как и с текстом в Word. Нажимаем на Редактировать и получаем возможность изменять, удалять или добавлять текст или целые текстовые фрагменты. При этом программа сама автоматически подбирает шрифт и наши правки никак не выделяются на общем фоне. Фактически, нам доступны все основные инструменты форматирования текста - можем изменять шрифт,его размер, начертание, выравнивание, цвет или изменять междустрочный интервал. Мы имеем возможность вставлять в документ произвольные изображения или создавать простые рисунки с помощью инструмента "Нарисовать". Если же мы изучаем текст документа, то вполне могут быть полезны маркеры, позволяющие выделить фрагмент текста цветом или линией. Также можно добавить заметку к какому-то участку текста.

Работа в OCR-редакторе

Второй вариант распознавания позволяет открыть OCR-редактор. OCR (Optical Character Recognition) - это система оптического распознавания текстов. И первые версии FineReader, с которыми мне доводилось иметь дело, представляли собой как раз такой редактор. Здесь рабочую область программы условно можно разделить на три зоны: в первой находится перечень всех страниц документа, во второй находится макет текущей страницы с размеченными областями для распознавания, и в третьей располагается уже распознанная страница.

FineReader автоматически расставляет области распознавания и определяет их тип, хотя в плохо отсканированных документах нередко приходится корректировать области распознавания, изменяя их тип или размеры. Делается это очень просто - выбираем на панели нужный инструмент и затем мышью создаем рамку в той области страницы, в которой необходимо провести распознавание.

В качестве области для распознавания можно выбрать текст, изображение, таблицу или фоновую картинку. Изменяя размер области мы можем исключить из документа какую-то из его частей. Более детально настроить область для распознавания можно в нижней части окна программы. После того, как области выбраны или изменены, необходимо распознать документ, выбрав соответствующий инструмент.

Если первоначальный документ отсканирован в плохом качестве, имеет слабую резкость или контраст, то можно зайти в редактор изображения страницы и откорректировать изображение. Здесь есть весьма обширный инструментарий, который позволяет устранить подавляющее большинство изъянов. Например, можно убрать перекос или искажение строк, что очень часто бывает при сканировании многостраничных документов, таких как книги.

Когда текст успешно распознан стоит произвести его проверку. В открывшемся окне программа будет предлагать варианты слов, которые ей покажутся неправильными и у нас будет возможность найти и устранить огрехи распознавания. И в конечном счете сохраняем распознанный документ в нужном нам формате, например, текст в Word или таблицы в Excel. Либо можно снова сохранить откорректированный документ в формате PDF. Также есть возможность передать распознанный документ, например, в Word. При этом откроется соответствующая программа и мы сможем работать с распознанным текстом в ней, используя все ее инструменты.

Интерактивные формы

Итак, FineReader, как и раньше, можно использовать для сканирования документов или книг, с последующим их распознаванием. Кроме этого появился обширный инструментарий по работе с PDF-документами, частью которого является редактор форм. С помощью редактора форм можно создавать разнообразные анкеты или шаблонные документы.

Продемонстрирую возможности редактора форм на примере изображения анкеты, которую я нашел на просторах интернета. Оригинал анкеты является изображением в формате JPEG, поэтому его нужно сначала переконвертировать в PDF. Далее переключаемся в редактор форм и добавляем необходимые элементы.

Для начала добавим текстовые поля для имени, фамилии, отчества и других аналогичных элементов. Затем расставим флажки, для выбора вариантов ответа на вопросы. В этой анкете нет необходимости вставлять данные из списков,но это можно сделать. Например, преобразую раздел «Как вы нас нашли» в выпадающий список. Ну а оценки оформим переключателями. Сохраним документ и откроем его, например, в браузере или любой другой программе, позволяющей открывать PDF-файлы.

В анкете мы можем вводить данные в текстовые поля, выбирать нужные варианты ответов из выпадающего списка или с помощью флажков и переключателей. В итоге заполненную анкету можно сохранить на компьютере в отдельный PDF-файл или распечатать.

Технологии

Больше по теме