Найти в Дзене
OVERCLOCKERS.RU

Почему извлечение данных из PDF-файлов до сих пор остаётся кошмаром для экспертов по данным

Несмотря на кажущуюся простоту формата PDF, извлечение данных из этих файлов продолжает оставаться серьезной проблемой для специалистов по анализу данных. Огромные массивы ценной информации, содержащиеся в цифровых документах, остаются недоступными для автоматизированной обработки, что препятствует развитию искусственного интеллекта. Формат PDF (Portable Document Format) десятилетиями служил универсальным контейнером для хранения самой разной информации – от научных публикаций до государственных отчетов. Однако жесткая структура этого формата, изначально ориентированного на визуальное представление, а не на машинную обработку, создает серьезные препятствия для извлечения содержащихся в нем данных. Дерек Уиллис, специалист по вычислительной журналистике из Университета Мэриленда, попробовал объяснять корень проблемы: «PDF возник в эпоху, когда полиграфические требования к верстке определяли направление развития издательского программного обеспечения. По своей сути PDF – это скорее проду

Несмотря на кажущуюся простоту формата PDF, извлечение данных из этих файлов продолжает оставаться серьезной проблемой для специалистов по анализу данных. Огромные массивы ценной информации, содержащиеся в цифровых документах, остаются недоступными для автоматизированной обработки, что препятствует развитию искусственного интеллекта.

Формат PDF (Portable Document Format) десятилетиями служил универсальным контейнером для хранения самой разной информации – от научных публикаций до государственных отчетов. Однако жесткая структура этого формата, изначально ориентированного на визуальное представление, а не на машинную обработку, создает серьезные препятствия для извлечения содержащихся в нем данных.

Дерек Уиллис, специалист по вычислительной журналистике из Университета Мэриленда, попробовал объяснять корень проблемы: «PDF возник в эпоху, когда полиграфические требования к верстке определяли направление развития издательского программного обеспечения. По своей сути PDF – это скорее продукт для печати, нежели действительно цифровой формат. Многие PDF-файлы фактически представляют собой просто картинки с информацией. Для преобразования таких изображений в структурированные данные требуется технология оптического распознавания символов (OCR), особенно когда речь идет о старых документах или материалах с рукописным текстом».

В области вычислительной журналистики, где традиционные методы репортажа сочетаются с анализом больших данных и алгоритмическим подходом, проблема извлечения информации из PDF стоит особенно остро. Ведь именно в этих документах может скрываться ключевая информация для расследований и аналитических материалов.

Масштаб проблемы впечатляет: исследования показывают, что около 80-90% всех организационных данных в мире хранится в неструктурированном виде, причем значительная их часть заключена в форматах, затрудняющих автоматическое извлечение. Ситуация становится еще сложнее, когда документы содержат многоколоночную верстку, таблицы, графики или представляют собой сканы низкого качества.

Сложности с надежным извлечением данных из PDF-файлов затрагивают множество областей, но особенно сильно влияют на сферы, зависящие от обширной документации и исторических архивов. Это касается оцифровки научного наследия, сохранения исторических документов, совершенствования клиентского сервиса и интеграции технической литературы с системами искусственного интеллекта.

«Эта проблема актуальна практически для всех текстовых материалов, опубликованных более двух десятилетий назад, и особенно актуальна для государственных документов», – отмечает Уиллис. «От нее страдают не только государственные органы, такие как суды, правоохранительные и социальные службы, но и журналисты, полагающиеся на эти документы в своей работе. Кроме того, информационно-зависимые отрасли, включая страхование и банковский сектор, вынуждены вкладывать значительные ресурсы в преобразование PDF-файлов в пригодные для анализа данные».

Эволюция технологий распознавания текста

Технология оптического распознавания символов (OCR) появилась еще в 1970-х годах. Пионером в коммерческой разработке OCR-систем стал изобретатель Рэй Курцвейл, создавший в 1976 году «Читающую машину Курцвейла» для незрячих людей. Это устройство использовало алгоритмы сопоставления шаблонов для идентификации символов на основе расположения пикселей.

Традиционные OCR-системы анализируют изображения, выявляя закономерности в расположении светлых и темных пикселей, сопоставляя их с известными формами букв и символов, и выводя распознанный текст. Такой подход достаточно эффективен для четких, простых документов, но часто дает сбои при работе с нестандартными шрифтами, многоколоночной версткой, таблицами или некачественными сканами.

-2

Несмотря на появление новых технологий, традиционный OCR до сих пор широко используется во многих областях. Главное его преимущество – предсказуемость: типичные ошибки таких систем хорошо изучены, их можно выявить и исправить. Эта предсказуемая надежность иногда ценнее теоретических преимуществ более современных решений на базе искусственного интеллекта. Однако ситуация меняется по мере того, как трансформерные большие языковые модели (LLM) привлекают все больше инвестиций, и компании начинают применять их для разработки новых подходов к распознаванию документов.

Языковые модели в распознавании текста: революционный подход

Современные мультимодальные языковые модели, способные работать с изображениями, принципиально отличаются от классических OCR-решений. Вместо поэтапного распознавания отдельных символов по шаблонам пикселей, эти модели обрабатывают документы комплексно, анализируя как визуальные элементы, так и их смысловое содержание.

Передовые модели от компаний OpenAI, Google и Meta преобразуют тексты и изображения в наборы токенов – фрагментов данных, которые затем обрабатываются крупными нейронными сетями. Именно таким образом, например, ChatGPT анализирует загруженный в него PDF-документ – с помощью визуального метода, основанного на обработке изображений.

Интересно, что модели разных разработчиков демонстрируют существенные различия в эффективности работы с PDF-документами.

«Языковые модели, которые справляются с этими задачами наиболее успешно, обычно работают схожим образом с тем, как я бы делал это вручную», – комментирует Уиллис. Он признает, что некоторые традиционные OCR-инструменты, особенно Amazon Textract, показывают достойные результаты, но отмечает их принципиальное ограничение: «Они жестко привязаны к правилам своего программного обеспечения и ограничены объемом текста, который они могут использовать при распознавании нестандартных паттернов. В случае с языковыми моделями вы получаете более широкий контекст, что позволяет им точнее определять, является ли, например, цифра тройкой или восьмеркой».

Инновационный подход позволяет языковым моделям эффективнее обрабатывать сложные макеты, интерпретировать таблицы и различать элементы документа – заголовки, подписи, основной текст – задачи, с которыми классические OCR-решения справляются с трудом.

«Языковые модели не идеальны и иногда требуют значительного вмешательства для качественной работы, но сама возможность их настройки с помощью специальных запросов дает огромное преимущество», – заключает Уиллис.

Новое поколение OCR на базе языковых моделей

С ростом потребности в более совершенных инструментах обработки документов на рынок выходят новые решения на базе искусственного интеллекта. Одна из недавних разработок вызвала особый интерес у специалистов по обработке документов.

Французская компания Mistral, известная своими компактными языковыми моделями, недавно представила специализированный сервис Mistral OCR, разработанный специально для обработки документов. Согласно официальным заявлениям компании, их система способна извлекать текст и изображения из документов со сложной структурой, используя возможности языковой модели для обработки различных элементов документа.

Однако реальные испытания показали, что заявленные возможности не всегда соответствуют фактической производительности. «Обычно я положительно оцениваю модели Mistral, но их новое OCR-решение, выпущенное на прошлой неделе, продемонстрировало откровенно низкую эффективность», – отмечает Уиллис.

«Коллега прислал мне PDF-документ и попросил помочь с извлечением содержащейся в нем таблицы. Это был старый документ со сложной структурой таблицы. Новая OCR-модель Mistral работала крайне плохо – дублировала названия городов и искажала множество числовых значений», – рассказывает Уиллис.

-3

Александр Дориа, разработчик приложений с использованием искусственного интеллекта, также отметил серьезный недостаток Mistral OCR при работе с рукописным текстом. В своем сообщении на платформе X он написал: «К сожалению, Mistral-OCR подвержена типичной проблеме визуальных языковых моделей: при работе со сложными рукописями она полностью теряет точность и начинает галлюцинировать».

По мнению Уиллиса, в настоящее время лидерство в области распознавания документов с помощью искусственного интеллекта принадлежит Google: «На сегодняшний день безусловным лидером является экспериментальная модель Google Gemini 2.0 Pro Experimental. Она справилась с PDF-документом, с которым Mistral не смогла работать, допустив минимальное количество ошибок. Я успешно обрабатывал с ее помощью различные сложные PDF-документы, включая материалы с рукописным текстом».

Преимущество Gemini во многом обусловлено ее способностью обрабатывать объемные документы благодаря увеличенному контекстному окну – специальному типу краткосрочной памяти модели. «Размер контекстного окна модели также играет важную роль, поскольку позволяет загружать крупные документы и обрабатывать их фрагментами», – подчеркивает Уиллис. Эта возможность в сочетании с надежным распознаванием рукописного текста обеспечивает решению Google практическое превосходство над конкурентами в реальных задачах обработки документов.

Ограничения OCR на базе языковых моделей

Несмотря на многообещающие возможности, применение языковых моделей для распознавания документов сопряжено с рядом специфических проблем. Среди них – склонность к конфабуляциям или галлюцинациям (генерации интересной, но фактически неверной информации), нежелательное выполнение инструкций, содержащихся в тексте документа (которые модель может воспринять как пользовательские команды), а также общие ошибки интерпретации данных.

«Главный недостаток заключается в том, что это вероятностные системы предсказания, и их ошибки выходят за рамки простого неверного распознавания слова», – поясняет Уиллис. «Я заметил, что языковые модели иногда пропускают строки в объемных документах с повторяющейся структурой – ошибка, которую классические OCR-системы обычно не допускают».

Саймон Уиллисон, исследователь искусственного интеллекта и журналист данных, в беседе с журналистами выделил несколько критических проблем использования языковых моделей для распознавания документов. «Я по-прежнему считаю наиболее серьезным риском непреднамеренное выполнение инструкций», – отмечает он, выражая озабоченность возможностью случайных инъекций промптов, которые могут подавать языковой модели вредоносные или противоречивые команды.

-4

«Не менее опасны и ошибки при интерпретации таблиц, которые могут иметь катастрофические последствия», – добавляет Уиллисон. «В моей практике были случаи, когда визуальная языковая модель неправильно соотносила строки данных с заголовками, что приводило к абсолютно бессмысленным результатам, которые при этом выглядели вполне правдоподобно. Также существует проблема, когда при столкновении с неразборчивым текстом модель просто придумывает содержание».

Эти недостатки становятся особенно критичными при обработке финансовой документации, юридических бумаг или медицинских записей, где ошибка может иметь серьезные последствия, вплоть до угрозы жизни человека. Проблемы с надежностью означают, что подобные инструменты часто требуют тщательного человеческого контроля, что ограничивает их применимость для полностью автоматизированного извлечения данных.

Перспективы развития технологий

Даже в нашу эпоху стремительного развития искусственного интеллекта идеального решения для распознавания PDF-документов пока не существует. Конкуренция в этой области продолжается, и такие компании, как Google, выводят на рынок новые продукты генеративного ИИ с контекстуальной осведомленностью. Как отмечает Уиллис, интерес разработчиков искусственного интеллекта к технологиям обработки PDF-документов частично обусловлен возможностью получения новых данных для обучения моделей: «Недавний анонс Mistral OCR ясно демонстрирует, что обработка документов, и не только PDF, является важной частью их стратегии – именно потому, что это потенциальный источник дополнительных обучающих данных».

Независимо от того, приносят ли эти технологии выгоду компаниям-разработчикам ИИ или помогают историкам анализировать архивные переписи населения, совершенствование методов извлечения данных из PDF может открыть доступ к колоссальным объемам знаний, в настоящее время заключенных в форматах, ориентированных преимущественно на человеческое восприятие. Это может ознаменовать новую эру в анализе данных – или создать благоприятную среду для трудноуловимых ошибок, в зависимости от используемых технологий и степени нашего доверия к ним.

📃 Читайте далее на сайте