Галлюцинация – это когда модель врёт с уверенностью эксперта. Свежее исследование OpenAI (сентябрь 2025) показало: причина не в «тупом» ИИ, а в обучении, где угадать выгоднее, чем сказать «не знаю». Лечится четырьмя слоями: бизнес-бриф, жёсткий промпт с правом на отказ, заземление на источники (RAG) и обязательная проверка на выходе. Без них агент будет красиво врать клиентам от твоего имени.
Что такое галлюцинация ИИ – без терминологического тумана
Смотри сюда. Модель не «обманывает» в человеческом смысле. Она предсказывает следующее слово по статистике текстов, а не сверяется с реальностью. Получается уверенный тон + ложный факт в одном флаконе.
Авторы статьи OpenAI «Why Language Models Hallucinate» (4 сентября 2025) пишут прямо: стандартные процедуры обучения и оценки вознаграждают угадывание сильнее, чем признание неопределённости. На бенчмарках модель, которая всегда что-то ответит, набирает больше очков, чем та, которая иногда говорит «не знаю».
Вывод для практики один: галлюцинация – это не баг конкретной модели, а системное свойство технологии. Встречается у всех LLM, включая свежие рассуждающие модели. Значит, защищаться нужно не выбором «модели поумнее», а процессом: бриф, промпт, источники, проверка.
Почему модели врут – корень проблемы
Корень один: модель учится на следующее слово без сигнала «правда/ложь». Она видит миллиарды текстов, но не получает обратной связи о фактах – только «так писали люди». Когда в запросе попадается редкий или отсутствующий в обучении факт, модель достраивает его по аналогии. И мимо.
OpenAI в работе arXiv:2509.04664 показывает интересную вещь. Текущая система бенчмарков штрафует «не знаю» так же, как неправильный ответ, а правильный засчитывает как +1. Рациональная стратегия для модели – всегда угадывать. Отсюда выдуманные имена авторов, номера статей, цитаты и ссылки: статистически такие конструкции выглядят правдоподобно.
Отсюда практический принцип. Галлюцинации режутся тогда, когда в задаче явно разрешено и поощряется «не знаю». Это не настройка модели – это формулировка промпта и инструкций агента.
Насколько всё плохо – цифры, а не ощущения
Без сухой фактуры тут никак. Несколько ориентиров из независимых исследований:
- Stanford RegLab, «Large Legal Fictions» (2024). 800 000+ юридических вопросов, универсальные модели. Доля галлюцинаций – 58–88%.
- Та же команда, 2025 год, Journal of Empirical Legal Studies. Уже специализированные RAG-инструменты: Lexis+ AI – 17%, Westlaw AI-Assisted Research – 33%, GPT-4 на тех же запросах – 43%.
- Лидерборд Vectara HHEM / FaithJudge (github.com/vectara/hallucination-leaderboard). Меряет верность ответа поданному контексту в RAG. У топовых моделей – около 1,3%, у худших – выше 15%.
Что отсюда забираем. Первое: RAG поверх универсальной модели режет галлюцинации в разы, но не до нуля. Второе: даже у лидеров остаётся ненулевой процент ошибок. Значит, проверка на выходе системы – не «опция», а обязательный слой.
Почему бизнес-бриф режет галлюцинации
Большая часть «выдумок» рождается не там, где модель не знает фактов. А там, где она не знает контекста задачи. Без понимания – для кого ответ, какие ограничения, что считается успехом – модель достраивает недостающее «по аналогии». И уезжает в кювет.
Бизнес-бриф агента – это структурированное описание: продукт, аудитория, цели, табу, тон, источники истины, формат ответа, критерии приёмки. Зашил такой бриф в системный промпт или в базу знаний – у модели появилась опора, кроме общих паттернов из обучения.
Логику подтверждает обзор getzep.com «Reducing LLM Hallucinations»: чем точнее задан контекст и инструкции, тем меньше пробелов, которые модель закрывает догадками.
Делай так: прежде чем настраивать промпт, опиши бизнес. Один лист с фактами о компании, продукте и аудитории убирает заметную долю галлюцинаций ещё до старта.
Жёсткие инструкции: как закрыть «лазейку угадывания»
После брифа идёт второй слой – формулировка инструкций. Задача простая: закрыть для модели любое место, где можно «дофантазировать».
Рабочие правила промпта:
- Разреши «не знаю». Прямо: «Если данных в контексте нет – ответь «недостаточно данных» и перечисли, чего не хватает». Это разворачивает тот самый стимул из работы OpenAI: модели больше не нужно угадывать ради вежливости.
- Запрети выдумывать ссылки и цифры. «Не приводи статистику, цитаты и URL, которых нет в предоставленных источниках».
- Зафиксируй формат. Чем строже шаблон ответа (JSON, чек-лист, таблица), тем меньше места для «литературной» отсебятины.
- Раздели шаги. Сначала «извлеки факты из источника». Потом «составь ответ только из этих фактов».
- Укажи роль и аудиторию. Это отсекает домены, в которых модель любит додумывать.
Принцип: каждое правдоподобное место, где модель может «дофантазировать», закрываем явным запретом или явным разрешением сказать «не знаю». Без полумер.
RAG и заземление: дай модели источник, а не «память»
RAG (Retrieval-Augmented Generation) – архитектура, в которой система перед ответом ищет релевантные фрагменты в базе знаний и подкладывает их модели в промпт. Модель отвечает не «из головы», а из переданного контекста.
Эффект подтверждён цифрами. В юридическом исследовании Stanford переход от чистого GPT-4 (43% галлюцинаций) к RAG-системе Lexis+ AI снизил долю ошибок до 17% – почти втрое. На лидерборде Vectara, который специально меряет верность ответа поданным фактам, топовые модели держат планку около 1,3%.
Чтобы RAG реально работал, нужны три вещи:
- Качество источника. Устаревшие или противоречивые документы – модель честно процитирует ошибку.
- Качество поиска. Плохой ретривер тянет нерелевантные куски – модель «заземляется» на шуме.
- Принудительное цитирование. В инструкции явно: «после каждого утверждения укажи, из какого документа оно взято». Это даёт прозрачность и упрощает аудит.
Нет всех трёх – RAG превращается в декорацию. Забудь про костыли вроде «подсунем пару PDF-ок и поедет».
Самопроверка через цепочку верификации (CoVe)
Помимо внешних источников, у модели можно включить внутреннюю проверку. Метод Chain-of-Verification (CoVe), предложенный командой Meta AI, разбивает ответ на четыре шага: модель даёт черновик → формирует к нему проверочные вопросы → отвечает на каждый отдельно → переписывает финальный ответ с учётом проверки.
Идея в том, что разбиение на маленькие фактологические подвопросы убивает «коллективную уверенность» длинного ответа. Когда модель отвечает на «в каком году компания X вышла на IPO» изолированно – она реже додумывает дату, чем когда та же дата вшита в большой нарратив.
CoVe и его аналоги (self-consistency, self-check, multi-sample voting) уместны там, где цена ошибки выше цены задержки: юридические, финансовые, медицинские, договорные сценарии. Для бытовых задач хватит одной итерации. Для критичных шагов пайплайна – верификация по умолчанию.
Как проверять выход агента в проде
Даже с брифом, инструкциями, RAG и самопроверкой остаётся ненулевая доля ошибок. Поэтому надёжная система агентов всегда содержит слой контроля на выходе. Это уже не теория – это базовая инженерная практика 2025–2026.
Рабочие подходы (см. обзор futureagi.com «Detect Hallucinations in Generative AI»):
- NLI-проверка (faithfulness). Отдельная модель проверяет, следует ли ответ из переданного контекста. Не следует – флаг.
- SelfCheckGPT / multi-sample. Один вопрос задаётся 3–5 раз. Противоречия в ответах – сигнал галлюцинации.
- LLM-as-a-judge. Вторая модель оценивает первую по фиксированному чек-листу: есть ли источник, есть ли запрещённые формулировки, соответствует ли формату.
- Детерминированные валидаторы. Регулярки и схемы: проверка дат, валюты, ИНН, URL, JSON-схем.
- Human-in-the-loop. В критичных шагах – подтверждение оператора до отправки клиенту или в систему.
Главное правило простое: ни один внешний ответ агента не уходит без хотя бы одной автоматической проверки. Точка.
Чек-лист: надёжная система агентов без галлюцинаций
Сводный список. Прогоняй по своему сценарию уже сегодня:
- Есть бизнес-бриф агента: продукт, аудитория, табу, источники истины, тон, формат.
- В системном промпте явно разрешено и предписано отвечать «недостаточно данных», когда контекста не хватает.
- Запрещены выдуманные ссылки, цитаты, цифры, имена, даты.
- Ответ строится из переданного контекста (RAG), а не из «общих знаний» модели.
- База знаний актуальна и почищена от противоречий; задан регламент обновления.
- В ответе обязательны ссылки на конкретные куски-источники.
- Критичные шаги обёрнуты в самопроверку (CoVe / self-check).
- На выходе работает слой автоматической проверки: NLI, схемы, валидаторы.
- В высокорисковых сценариях есть подтверждение человеком.
- Ведётся лог ошибок и регулярный разбор кейсов с обновлением промпта и базы.
Десять пунктов закрывают подавляющее большинство ситуаций, где ИИ «врёт уверенно».
📚 Хочешь собрать надёжную систему агентов без галлюцинаций по шагам – от брифа и промпта до RAG и проверки? Разбираем это на практике в бесплатном курсе СОЗИДАЙ.