Авторы Адам Тауман Калай, Офир Нахум, Сантош С. Вемпала, Эдвин Чжан
Аннотация
Подобно студентам, сталкивающимся с трудными экзаменационными вопросами, крупные языковые модели иногда гадают, когда не уверены, произнося правдоподобные, но неверные утверждения, вместо того чтобы признать свою неуверенность. Такие «галлюцинации» сохраняются даже в самых современных системах и подрывают доверие. Мы утверждаем, что языковые модели галлюцинируют, потому что процедуры обучения и оценки поощряют догадки, а не признание неопределенности, и анализируем статистические причины галлюцинаций в современном процессе обучения. Галлюцинации не обязательно должны быть загадочными — они возникают просто как ошибки в бинарной классификации. Если неверные утверждения не могут быть отличены от фактов, то галлюцинации в предварительно обученных языковых моделях будут возникать под естественным статистическим давлением. Далее мы утверждаем, что галлюцинации сохраняются из-за способа оценки большинства оценок — языковые модели оптимизированы для успешного прохождения тестов, а угадывание в случае неопределенности улучшает результаты тестирования. Эта «эпидемия» наказания за неопределенные ответы может быть устранена только с помощью социально-технических мер: изменения системы оценки существующих тестов, которые не соответствуют действительности, но доминируют в рейтингах, а не введения дополнительных оценок галлюцинаций. Это изменение может привести к созданию более надежных систем искусственного интеллекта.
1 Введение
Языковые модели, как известно, генерируют чрезмерно уверенные, правдоподобные ложные утверждения, что снижает их полезность и надежность. Этот тип ошибок известен как «галлюцинации», хотя он принципиально отличается от человеческого восприятия. Несмотря на значительный прогресс, галлюцинации по-прежнему являются проблемой в этой области и присутствуют даже в самых последних моделях (OpenAI, 2025a). Рассмотрим следующий запрос:
Когда день рождения Адама Таумана Калаи? Если знаете, просто ответьте в формате ДД-ММ.
При трех отдельных попытках современная языковая модель с открытым исходным кодом выдала три неверные даты: «03-07», «15-06» и «01-01», хотя ответ требовался только в случае, если он был известен. Правильная дата — осень. В сноске 4 приведен пример более сложных галлюцинаций.
Галлюцинации являются важным частным случаем ошибок, производимых языковыми моделями, которые мы анализируем в более общем плане с помощью теории вычислительного обучения (например, Kearns и Vazirani, 1994). Мы рассматриваем общие наборы ошибок ℰ, произвольное подмножество правдоподобных строк 𝒳=ℰ∪𝒱, причем другие правдоподобные строки 𝒱 называются действительными. Затем мы анализируем статистическую природу этих ошибок и применяем результаты к интересующему нас типу ошибок: правдоподобным ложным утверждениям, называемым галлюцинациями. Наш формализм также включает понятие подсказки, на которую должна отвечать языковая модель.
Распределение языка изначально изучается на основе корпуса обучающих примеров, который неизбежно содержит ошибки и полуправды. Однако мы показываем, что даже если бы обучающие данные были без ошибок, цели, оптимизируемые во время обучения языковой модели, привели бы к генерации ошибок. При использовании реалистичных обучающих данных, содержащих оттенки ошибок, можно ожидать еще более высоких показателей ошибок. Таким образом, наши нижние границы ошибок применимы к более реалистичным настройкам, как и в традиционной теории вычислительного обучения (Kearns and Vazirani, 1994).
Наш анализ ошибок является общим, но имеет конкретные последствия для галлюцинаций. Он широко применим, в том числе к языковым моделям рассуждений и поиска и извлечения, и анализ не зависит от свойств прогнозирования следующего слова или нейронных сетей на основе Transformer. Он учитывает только два этапа современной парадигмы обучения: предварительное обучение и последующее обучение, описанные ниже. Что касается галлюцинаций, то таксономии (Maynez et al., 2020; Ji et al., 2023) часто дополнительно различают внутренние галлюцинации, которые противоречат запросу пользователя, например:
Сколько букв D в слове DEEPSEEK? Если знаете, просто назовите число без комментариев.
DeepSeek-V3 выдал ответ «2» или «3» в десяти независимых испытаниях; Meta AI и Claude 3.7 Sonnet показали схожие результаты, включая ответы размером до «6» и «7». Наша теория также проливает свет на внешние галлюцинации, которые противоречат данным обучения или внешней реальности.
1.1 Ошибки, вызванные предварительным обучением
Во время предварительного обучения базовая модель изучает распределение языка в большом текстовом корпусе. Мы показываем, что даже при использовании безошибочных обучающих данных статистическая цель, минимизируемая во время предварительного обучения, приведет к созданию языковой модели, которая будет генерировать ошибки. Доказать это нетривиально, поскольку некоторые модели не допускают ошибок, например, те, которые всегда выдают ответ «Я не знаю» (IDK), или те, которые просто запоминают и воспроизводят корпус без ошибок. Наш анализ объясняет, какие типы ошибок следует ожидать после предварительного обучения.
Для этого мы проводим аналогию с бинарной классификацией. Рассмотрим вопросы вида «Является ли это действительным выходом языковой модели?». Генерация действительных результатов в некотором смысле сложнее, чем ответы на эти вопросы «да/нет», потому что генерация неявно требует ответа «действительно ли это» на каждый возможный ответ. Формально мы рассматриваем проблему бинарной классификации Is-It-Valid (IIV), которая имеет обучающий набор, состоящий из большого количества ответов, каждый из которых помечен как действительный (+) или ошибочный (−), как показано на рис. 1. Для этой задачи контролируемого обучения как обучающие, так и тестовые данные представляют собой смесь 50/50 действительных примеров, помеченных как + (т. е. данные предварительного обучения, поскольку мы предполагаем, что они действительны), и равномерно распределенных случайных ошибок из ℰ, помеченных как −. Затем мы показываем, как любая языковая модель может быть использована в качестве классификатора IIV. Это, в свою очередь, позволяет нам установить математическую зависимость между генеративными ошибками (такими как галлюцинации) и частотой ошибочной классификации IIV:
(генеративная частота ошибок) ≳ 2 · (частота ошибочной классификации IIV).
Языковые модели избегают многих типов ошибок, таких как орфографические ошибки, и не все ошибки являются галлюцинациями. Сокращение от ошибочной классификации IIV к генерации проливает свет на статистическую природу генеративных ошибок. Анализ показывает, как предобучение напрямую способствует ошибкам. Более того, он показывает, что те же статистические факторы, которые способствуют ошибкам в бинарной классификации, также вызывают ошибки языковой модели. Десятилетия исследований пролили свет на многогранную природу ошибок ошибочной классификации (Domingos, 2012). Рис. 1 (справа) наглядно иллюстрирует эти факторы: вверху — разделяемые данные классифицированы точно; посередине — некачественная модель линейного разделителя для круговой области; внизу — отсутствие чёткой закономерности. В разделе 3.3 анализируется несколько факторов, включая следующую стилизованную ситуацию с эпистемической неопределенностью, когда в данных отсутствует закономерность.
Эта редукция связывает воедино более ранние работы, охватывающие различные типы фактов. Например, Калай и Вемпала (2024) рассмотрели особый случай произвольных фактов, в которых отсутствует обучаемая закономерность, как, например, в примере с галлюцинациями, связанными с днем рождения. Мы показываем, как редукция IIV охватывает этот случай и восстанавливает их границу, согласно которой частота галлюцинаций после предобучения должна быть не менее доли тренировочных фактов, встречающихся один раз. Например, если 20% фактов о днях рождения встречаются ровно один раз в предобученном наборе данных, то можно ожидать, что базовые модели будут галлюцинировать как минимум на 20% фактов о днях рождения. Фактически, наш анализ усиливает их результат, включая подсказки и ответы IDK, которые являются важнейшими компонентами галлюцинаций.
1.2 Почему галлюцинации сохраняются после обучения
На втором этапе, после обучения, базовая модель дорабатывается, часто с целью уменьшения галлюцинаций. В то время как анализ до обучения охватывал ошибки в более общем плане, наш анализ после обучения сосредоточен на том, почему генерируются чрезмерно уверенные галлюцинации, а не на пропуске информации или выражении неопределенности, например, IDK. Мы предлагаем социально-техническое объяснение сохранения галлюцинаций после обучения и обсуждаем, как в этой области можно их подавить.
В качестве аналогии рассмотрим следующий контекст, в котором люди также иногда придумывают правдоподобную информацию. В случае неуверенности студенты могут угадывать ответы на экзаменах с множественным выбором и даже блефовать на письменных экзаменах, подавая правдоподобные ответы, в которых они мало уверены. Языковые модели оцениваются с помощью аналогичных тестов. В обоих случаях угадывание в случае неуверенности максимизирует ожидаемый балл по бинарной схеме 0-1, которая присуждает 1 балл за правильный ответ и ноль баллов за пропуски или «IDK». Блефы часто бывают чрезмерно уверенными и конкретными, например, «30 сентября» вместо «где-то осенью» в вопросе о дате. Многие тесты языковых моделей отражают стандартизированные экзамены для людей, используя бинарные метрики, такие как точность или процент успешных ответов. Оптимизация моделей для этих тестов может поэтому способствовать галлюцинациям. Люди учатся выражать неуверенность вне школы, в школе жестких уроков. С другой стороны, языковые модели в основном оцениваются с помощью экзаменов, которые наказывают за неуверенность. Поэтому они всегда находятся в режиме «сдачи экзаменов». Проще говоря, большинство оценок не согласованы.
Мы не первые, кто понял, что бинарная оценка не измеряет галлюцинации. Однако в предыдущих работах по оценке галлюцинаций обычно стремились найти неуловимую «идеальную оценку галлюцинаций». В разделе 4 мы утверждаем, что этого недостаточно. Мы наблюдаем, что существующие основные оценки в подавляющем большинстве случаев наказывают неопределенность, и поэтому коренная проблема заключается в обилии оценок, которые не согласованы. Предположим, что модель A — это согласованная модель, которая правильно сигнализирует о неопределенности и никогда не галлюцинирует. Пусть модель B аналогична модели A, за исключением того, что она никогда не указывает на неопределенность и всегда «угадывает», когда не уверена. Модель B будет превосходить модель A по шкале оценок 0-1, которая является основой большинства современных тестов. Это создает «эпидемию» наказания за неопределенность и воздержание, и мы утверждаем, что небольшая часть оценок галлюцинаций будет недостаточна. Многочисленные первичные оценки должны быть скорректированы, чтобы прекратить наказание за воздержание в случае неопределенности.
Вклад.
Мы выявляем основные статистические факторы, влияющие на галлюцинации, от их происхождения до и после обучения. Новая связь между контролируемым и неконтролируемым обучением разъясняет их происхождение, даже когда данные для обучения содержат IDK. Сохранение галлюцинаций, несмотря на обширную работу над этой проблемой, объясняется тем, что большинство первичных оценок поощряют догадки, похожие на галлюцинации. Мы обсуждаем статистически строгие модификации существующих оценок, которые открывают путь к эффективному смягчению последствий.
6 Выводы
В данной статье разъясняются галлюцинации в современных языковых моделях, от их возникновения во время предварительного обучения до их сохранения после обучения. Мы показываем, что в процессе предварительного обучения генеративные ошибки аналогичны ошибочным классификациям в контролируемом обучении, которые не являются загадочными и возникают естественным образом в результате минимизации кросс-энтропийных потерь.
Многие недостатки языковых моделей можно выявить с помощью одной оценки. Например, чрезмерное использование вступительной фразы «Конечно» можно устранить с помощью одной оценки «Конечно» (Amodei и Fridman, 2024), поскольку начало ответов с «Конечно» не оказывает существенного влияния на другие оценки. Напротив, мы утверждаем, что большинство основных оценок поощряют галлюцинаторное поведение. Простые модификации основных оценок могут переориентировать стимулы, поощряя надлежащее выражение неопределенности, а не наказывая за него. Это может устранить препятствия для подавления галлюцинаций и открыть дверь для будущей работы над нюансированными языковыми моделями, например, с более богатыми прагматическими компетенциями (Ma и дрl., 2025).