4247 подписчиков

Почему нейросеть иногда уверенно врёт: откуда берутся «галлюцинации»

31 января31 янв

4 мин

Вы задаёте простой вопрос, а ответ звучит так, будто его произносит уверенный эксперт: с датами, терминами, ссылками на «исследования». Проблема в том, что часть этих деталей может быть выдумана. В индустрии это называют галлюцинациями: модель генерирует правдоподобный текст, который не опирается на реальные факты или на предоставленный контекст. Галлюцинации не означают, что нейросеть «вредничает». Это побочный эффект того, как устроены современные языковые модели и чего от них требуют в обучении: быть связными, полезными и отвечать быстро, даже когда данных не хватает. Большинство популярных моделей учатся на задаче предсказания следующего фрагмента текста по предыдущему контексту. Если упростить: модель подбирает наиболее вероятное продолжение фразы, похожее на то, как люди обычно пишут и отвечают. В обзорах по проблеме галлюцинаций подчёркивается: цель обучения связана с правдоподобием текста, а не с проверкой истинности утверждений. Поэтому в момент ответа модель не «достаёт факт

Оглавление

Нейросеть не «знает», а предсказывает продолжение
Почему ложь получается уверенной
Какие бывают галлюцинации: три самых частых типа

Галлюцинации не означают, что нейросеть «вредничает». Это побочный эффект того, как устроены современные языковые модели и чего от них требуют в обучении: быть связными, полезными и отвечать быстро, даже когда данных не хватает.

Нейросеть не «знает», а предсказывает продолжение

Большинство популярных моделей учатся на задаче предсказания следующего фрагмента текста по предыдущему контексту. Если упростить: модель подбирает наиболее вероятное продолжение фразы, похожее на то, как люди обычно пишут и отвечают. В обзорах по проблеме галлюцинаций подчёркивается: цель обучения связана с правдоподобием текста, а не с проверкой истинности утверждений.

Поэтому в момент ответа модель не «достаёт факт из базы» в человеческом смысле. Она строит гипотезу о том, какой ответ звучал бы правдоподобно здесь и сейчас. Если вопрос требует конкретного знания, а в контексте его нет, модель может заполнить пробел тем, что статистически похоже на правду.

Почему ложь получается уверенной

У модели нет встроенного «ощущения уверенности» как у человека, и ей сложно корректно выражать неопределённость. Исследования по калибровке и выражению уверенности указывают, что большие модели нередко ведут себя чрезмерно уверенно и плохо сигнализируют, что они могут ошибаться.

Есть и мотивация со стороны настройки под диалог. После базового обучения модели часто дообучают так, чтобы ответы были полезными и звучали убедительно. В учебных материалах по RLHF отмечается риск: если поощрять «хорошо звучащий» ответ, модель может предпочитать уверенное объяснение даже там, где правильнее признать пробел.

Какие бывают галлюцинации: три самых частых типа

По описаниям в научных обзорах удобно выделять три сценария.

Факты «из воздуха»

Модель называет несуществующие даты, должности, цифры, адреса, «цитаты», придумывает источники. Особенно часто это случается, когда пользователь просит точные ссылки, названия статей или нормативных актов, но не даёт данных.

Подмена смысла контекста

Когда вы даёте текст, таблицу или инструкцию, модель может пересказать её красиво, но добавить детали, которых в исходнике не было, или перепутать причинно-следственные связи. В суммаризации это называют неустойчивой «верностью источнику».

Логика без опоры

Иногда факты формально верны, но объяснение построено на домыслах: модель уверенно описывает механизм, которого не подтверждают данные. Такое встречается в медицине, праве и технике: «похоже на правду», но не доказано.

Данные обучения и «дыры» в знаниях

Модель учится на огромных массивах текстов, а в них всегда есть ошибки, мифы, устаревшие сведения и противоречия. Более того, по одним и тем же темам люди пишут по-разному: где-то осторожно, где-то уверенно, где-то откровенно неверно. В результате модель хорошо запоминает форму аргументации и типичные связки, но не получает встроенного механизма, который бы отличал верное от популярного.

Отдельная причина «фантазии» — ограниченность контекста. Если вопрос требует сведений, которых нет в текущем диалоге, модель вынуждена опираться на общие закономерности из обучения. В такие моменты она часто смешивает похожие факты: названия организаций, годы, фамилии, формулировки законов. Это выглядит как «почти правильно», но именно поэтому опасно.

Почему проблема обостряется на цифрах и «уникальных» запросах

Модель сильна в типовых формулировках, но хуже там, где нужна точность: редкие имена, свежие события, уникальные комбинации фактов. Отдельная ловушка — «цифровая правдоподобность». Если в тексте часто встречаются проценты, годы и размеры, модель учится имитировать стиль и может вставлять числа, которые выглядят уместно, но не проверены.

Риск растёт и из-за того, как мы задаём вопрос. Просьба «ответь уверенно», «дай 10 пунктов», «составь список исследований» подталкивает модель заполнять структуру любыми подходящими фрагментами. Параметры генерации тоже влияют: чем больше случайности в выборке, тем выше шанс уйти в фантазию, особенно на слабой опоре.

Как сервисы снижают галлюцинации

Есть несколько подходов, которые уже стали практикой.

Подкрепление внешними источниками

Ответы с поиском и внешними документами снижают долю выдумок, потому что модель опирается на найденные фрагменты. Работы по retrieval-архитектурам показывают, что подключение поиска уменьшает фактические ошибки в задачах, где нужна опора на знания.

Самопроверка и «вторая попытка»

Существуют техники, где модель сначала отвечает, затем задаёт себе проверочные вопросы и исправляет слабые места. В исследованиях по chain-of-verification и похожим методам показывают, что такой цикл уменьшает галлюцинации, хотя требует больше вычислений.

Право на отказ

Один из самых сильных рычагов — научить модель говорить «не знаю» и просить уточнения. В системах оценки правдивости видно, что «угадать» бывает проще, чем честно воздержаться, и это отдельная проблема дизайна.

Что может сделать пользователь

Просить не «мнение», а опору: «укажи, что из ответа точно известно, а что предположение».
Дать контекст: документ, выдержку, цифры, ограничения по времени и стране.
Проверять опасные темы отдельно: медицина, право, финансы, безопасность.
Использовать режим с поиском или просить план проверки: что и где нужно подтвердить.

Что стоит запомнить

Галлюцинации — это не редкий сбой, а естественный риск модели, которая оптимизирована под связный текст. Лучшее практическое решение — повышать долю опоры: больше контекста, больше проверок, больше права на «не знаю», меньше требований «заполнить форму любой ценой».