Добавить в корзинуПозвонить
Найти в Дзене
OVERCLOCKERS.RU

Файлы формата PDF мешают большим языковым моделям собирать данные

Компания Adobe представила формат Portable Document Format (PDF) три десятилетия назад. Фиксированные макеты, которые сделали этот формат популярным, как оказалось, мешают большим языковым моделям брать данные из этих файлов. Структурные особенности таких файлов приводят к малозаметным, но всё равно существенным ошибкам. Искусственный интеллект обучен читать строки текста только слева направо. Научные статьи с многочисленными колонками могут оказаться ему не по зубам, или он может посчитать нижние колонтитулы частью основного текста. Это увеличивает проблему галлюцинаций. Изображение: GrokПростые текстовые форматы строятся на основе логических объектов документа, но файлы PDF используют графические координаты. Это делает их отлично визуально согласованными, но для понимания смысла необходимо учитывать порядок расположения текста, иерархию и контекст, а они в файле не представлены в явном виде. Способность формата PDF внедрять скрипты и ссылки привела к тому, что каждая пятая атака злоу

Компания Adobe представила формат Portable Document Format (PDF) три десятилетия назад. Фиксированные макеты, которые сделали этот формат популярным, как оказалось, мешают большим языковым моделям брать данные из этих файлов. Структурные особенности таких файлов приводят к малозаметным, но всё равно существенным ошибкам.

Искусственный интеллект обучен читать строки текста только слева направо. Научные статьи с многочисленными колонками могут оказаться ему не по зубам, или он может посчитать нижние колонтитулы частью основного текста. Это увеличивает проблему галлюцинаций.

Изображение: GrokПростые текстовые форматы строятся на основе логических объектов документа, но файлы PDF используют графические координаты. Это делает их отлично визуально согласованными, но для понимания смысла необходимо учитывать порядок расположения текста, иерархию и контекст, а они в файле не представлены в явном виде.

Способность формата PDF внедрять скрипты и ссылки привела к тому, что каждая пятая атака злоумышленников по электронной почте задействует подобные файлы. Несмотря на такие проблемы, в мире в настоящее время существует примерно 2,5 трлн файлов PDF, которые содержат научные работы, правительственные бланки, налоговые декларации и много других видов документов.

Компания Adobe уже внедрила ИИ-помощника в своё приложение Acrobat Reader, призванного извлекать краткую суть из документов PDF. Google дала такую же возможность инструментам разработчиков чат-бота Gemini, чтобы можно было преобразовывать файлы PDF в удобные для моделирования текстовые структуры.

Читайте далее на сайте

-2

Китай поднял цены на оптоволокно для России в 2,5–4 раза

-3

Anthropic отказала Пентагону в полном доступе к своим технологиями в области ИИ

-4

Google представила Nano Banana 2 – улучшенную модель генерации фотореалистичных изображений

-5

Компания HP рассказала об удвоении стоимости оперативной памяти за один квартал