Найти в Дзене
PDF Commander

При копировании текста из PDF файла в Word появляются непонятные символы: причины и решения

Формат PDF-файлов разрабатывался, чтобы документы выглядели одинаково во всех просмотрщиках и максимально походили на печатные материалы (листовки, брошюры, книги и тому подобное). То есть принципиальное значение имело визуальное отображение («внешний вид»). Удобство редактирования и электронного взаимодействия не рассматривалось, что теперь регулярно приводит к разным проблемам. Мы расскажем, почему текст из ПДФ копируется иероглифами и как это можно исправить. Текстовое наполнение электронных документов формируется из символов, которые входят в шрифты. У каждого знака есть определенный код. Визуально символы могут выглядеть одинаково или очень похоже, например, отображать одну и ту же букву или цифру. При копировании текста в буфер обмена помещается именно объемный набор символов, то есть массив определенных кодов. Сделать скопированный текст читаемым можно несколькими способами. Мы рассмотрим их на примере редактора PDF Commander. В некоторых случаях при переносе содержимого он даже
Оглавление

Формат PDF-файлов разрабатывался, чтобы документы выглядели одинаково во всех просмотрщиках и максимально походили на печатные материалы (листовки, брошюры, книги и тому подобное). То есть принципиальное значение имело визуальное отображение («внешний вид»). Удобство редактирования и электронного взаимодействия не рассматривалось, что теперь регулярно приводит к разным проблемам. Мы расскажем, почему текст из ПДФ копируется иероглифами и как это можно исправить.

Почему при копировании из ПДФ в Ворд получаются иероглифы

Текстовое наполнение электронных документов формируется из символов, которые входят в шрифты. У каждого знака есть определенный код. Визуально символы могут выглядеть одинаково или очень похоже, например, отображать одну и ту же букву или цифру. При копировании текста в буфер обмена помещается именно объемный набор символов, то есть массив определенных кодов.

-2

Что делать, если при копировании текста непонятные символы

Сделать скопированный текст читаемым можно несколькими способами. Мы рассмотрим их на примере редактора PDF Commander. В некоторых случаях при переносе содержимого он даже сохраняет исходное форматирование.

Вставка без форматирования как обычный текст

Самый простой и универсальный вариант. Он убирает все настройки шрифтов и параметры форматирования. Благодаря этому устраняет причины появления нечитаемых фрагментов.

1. Скачайте и запустите приложение и перетащите в его окно исходный PDF-документ. Также можно кликнуть «Открыть файл» и загрузить оригинал через эту опцию.

⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀ СКАЧАТЬ БЕСПЛАТНО

-3

2. Выделите текстовый фрагмент, вызовите контекстное меню (кликните правой кнопкой мыши) и выберите «Копировать».

-4

3. Запустите Word и создайте новый документ.

-5

4. Нажмите правой клавишей мыши на странице и выберите «Paste Text Only».

-6

5. После вставки могут встречаться ошибки, связанные с неправильным переносом строк. Устраните их вручную и сохраните изменения (в десктопной версии Word, в облачной сохранения выполняются автоматически).

-7

Распознавание текста (OCR)

Побочный эффект опции оптического распознавания символов (OCR) в том, что она перенастраивает кодировку и при переносе текста кракозябры не появляются. Функция понадобится и сразу после оцифровки. В нераспознанных PDF-файлах, а также в PNG- или JPEG-файлах выделение и копирование текста в принципе не работает.

1. Импортируйте документ.

-8

2. Откройте вкладку «Редактор» и кликните «Распознать текст».

-9

3. Отметьте языки распознавания. По умолчанию доступны русский и английский. Если нужны другие словари, воспользуйтесь опцией «Установить языки».

-10

4. Выберите модуль распознавания «Интеллектуальный». Обработка файла займет немного больше времени, но выполнится точнее.

-11

5. Добавьте невидимый слой — это сохранит оформление оригинала. Отметьте настройку «Объединять слова и строки». Далее нажмите «Распознать», чтобы запустить обработку.

-12

6. Кликните по значку дискеты и сохраните изменения. Теперь вы сможете выделять и копировать нужные фрагменты, исходное содержимое не должно искажаться.

-13

Конвертация

При конвертации PDF в Word иероглифы исчезают сразу во всем файле. Вам не придется вручную выделять и переносить содержимое. Есть еще более радикальный метод — преобразование ПДФ в TXT. Оно убирает форматирование и сбрасывает все настройки шрифтов. Результат можно просматривать в текстовых редакторах: стандартном Блокноте, импортировать в MS Word или другое аналогичное приложение.

1. Откройте программу и выберите конвертацию.

-14

2. Загрузите PDF-файл для преобразования.

-15

3. Задайте конечный формат — «.txt». Далее редактор попросит указать папку и название для нового файла. После этого декодирование текста начнется автоматически.

-16

DOCX впервые появился в Word 2007. Сейчас он почти полностью вытеснил прежний формат DOC. Конвертация PDF в DOCX обычно оставляет оформление исходника. Это экономит время, но в отдельных случаях мешает правильному отображению

1. На стартовом экране нажмите на выделенную кнопку.

-17

2. Добавьте PDF-файл.

-18

3. Укажите формат («.docx»), а далее — имя и папку для нового документа.

-19

Если у вас установлен Microsoft Office

Функционал MS Office Word позволяет менять отображение символов и тем самым устранять ошибки кодировки. Подойдет как десктопная, так и браузерная версия программы. Платное решение для компьютеров содержит больше продвинутых функций, например, редактирование макросов, что в нашем случае не имеет значения.

1. Смена шрифта. Многие наборы символов, особенно с необычным дизайном, создаются в первую очередь для латиницы. Русские буквы в них могут выводиться некорректно.

Десктопная версия MS Office использует установленные на компьютере шрифты, а онлайн-сервис Office 365 — загруженные на сервер разработчиками. Тем не менее в каждом случае доступны гарнитуры с полной поддержкой кириллицы, например, Arial, Courier New, Times New Roman. Чтобы применить одну из них, выделите фрагмент и задайте шрифт через выпадающий список в разделе «Home» («Главная»).

-20

2. Сохранение файла в ПДФ. Чтобы закрепить все внесенные правки, требуется повторный экспорт. Нужная для этого функция находится в меню «File» («Файл»).

-21

3. Печать PDF-документа. Виртуальный принтер иногда более корректно передает исходное кодирование. Функция также доступна в версиях браузеров, которые поддерживают просмотр PDF, например, в Chrome, Edge и Firefox. В Word она запускается через «File» («Файл»).

-22

Далее в списке принтеров нужно указать «Сохранить как PDF» или «Microsoft Print to PDF».

-23

Как и зачем изменять кодировку в PDF файле

Иногда после всех манипуляций все равно текстовое наполнение выводится на экран некорректно. Такое может происходить, если в ОС включена специфическая локализация или устройство (ноутбук) изначально не предназначалось для пользователей с российского рынка. Например, было куплено за границей и ввезено в страну. В этом случае кодировку текстового файла можно изменить принудительно.

Прежде настройки языков легко менялись с помощью Блокнота или Word. Однако в актуальных версиях программ соответствующие параметры выставляются принудительно и автоматически. Поэтому метод с Блокнотом доступен только до 10-й версии Windows включительно.

1. Чтобы изменения действовали только при просмотре, из «Формат» перейдите в «Шрифт».

-24

2. В «Наборе символов» укажите кириллицу.

-25

3. Чтобы изменения экспортировались, в меню «Файл» нажмите «Сохранить как».

-26

4. В списке кодировок задайте UTF-8 и сохраните файл.

-27

В Windows 11 вместо обновленного Блокнота можно использовать Sublime Text.

1. Кодировку при просмотре меняет опция «Reopen with Encoding» в «File». Необходимо выставить кодировку UTF-8.

-28

2. Функция «Save with Encoding» сохраняет TXT-файл с обновленными параметрами. В списке нужно указать UTF-8.

-29

Также с задачей справится LibreOffice Writer.

1. Через функцию «Открыть» импортируйте TXT-файл.

-30

2. В «Файл» выберите «Сохранить как».

-31

3. В списке «Тип файла» укажите «Текст - выбор кодировки». Далее кликните «Сохранить».

-32

4. Редактор попросит уточнить сделанный выбор, поскольку по умолчанию всегда отдает предпочтение ODF.

-33

5. В списке укажите «Юникод (UTF-8)» и кликните «ОК».

-34

Если у вас установлен Adobe Acrobat

Когда из PDF копируется текст с неправильной кодировкой, может помочь экспорт из Acrobat.

1. Из «Меню» перейдите в «Сохранить как другой» и выберите оптимизированный файл.

-35

2. Оставьте пресет параметров «Стандартные» и нажмите «ОК».

-36
Следует учитывать, что компания Adobe ушла с российского рынка. Поэтому сейчас из нашей страны нельзя напрямую приобрести ее продукты. Кроме того, Acrobat сильно перегружен разными функциями, но при этом плохо адаптирован к потребностям пользователей из России. Всех перечисленных недостатков лишен PDF Commander.

⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀ СКАЧАТЬ БЕСПЛАТНО

Бонус, если пользуетесь телефоном

Инструмент OCR доступен и на телефонах — в бесплатной программе Google Lens (Объектив). Она поможет с распознаванием картинок и избавит от проблем с копированием кода символов.

1. Откройте PDF-документ или изображение страницы в любом просмотрщике на ПК.

-37

2. Запустите Google Объектив, переключите режим на «Перевод», наведите камеру на фрагмент страницы и нажмите круглую кнопку с иероглифом.

3. Установите направление перевода русский → русский и нажмите «Выделить все».

4. Скопируйте фрагмент и перенесите в мессенджер или редактор.

Резюмируем

Вы узнали, почему скопированный текст вставляется иероглифами. Несколько способов решения проблемы предлагает PDF Commander. Можно запустить OCR. Автоматические алгоритмы заново распознают содержание документа, переназначат шрифты и кодировки. Другой метод — преобразование файла в форматы TXT или DOCX. Наконец, можно вставить исходный фрагмент текста без форматирования в Word.

Эффективные, но не такие удобные инструменты предусмотрены и в другом софте. Блокнот, доступный в Windows 10 и в более ранних версиях ОС, позволяет сохранять оригинальный формат TXT с иной кодировкой. Эта же функция есть в Sublime Text и LibreOffice Writer. Word и Acrobat позволяют повторно экспортировать документы в PDF. Google Объектив — простой инструмент для OCR на смартфонах. Он отлично подойдет, чтобы распознавать и переносить небольшие фрагменты. Также приложение придет на помощь, если была установлена защита документа на копирование его содержания.

Источник: https://pdf-editor.su/tekst-iz-pdf-kopiruetsya-ieroglifami.php