Компания Adobe представила формат Portable Document Format (PDF) три десятилетия назад. Фиксированные макеты, которые сделали этот формат популярным, как оказалось, мешают большим языковым моделям брать данные из этих файлов. Структурные особенности таких файлов приводят к малозаметным, но всё равно существенным ошибкам. Искусственный интеллект обучен читать строки текста только слева направо. Научные статьи с многочисленными колонками могут оказаться ему не по зубам, или он может посчитать нижние колонтитулы частью основного текста. Это увеличивает проблему галлюцинаций. Изображение: GrokПростые текстовые форматы строятся на основе логических объектов документа, но файлы PDF используют графические координаты. Это делает их отлично визуально согласованными, но для понимания смысла необходимо учитывать порядок расположения текста, иерархию и контекст, а они в файле не представлены в явном виде. Способность формата PDF внедрять скрипты и ссылки привела к тому, что каждая пятая атака злоу
Файлы формата PDF мешают большим языковым моделям собирать данные
27 февраля27 фев
77
1 мин