27 подписчиков

ИИ уверенно врёт. Что с этим делать, пока он не угробил твой проект

30 мая30 мая

7 мин

Галлюцинация – это когда модель врёт с уверенностью эксперта. Свежее исследование OpenAI (сентябрь 2025) показало: причина не в «тупом» ИИ, а в обучении, где угадать выгоднее, чем сказать «не знаю». Лечится четырьмя слоями: бизнес-бриф, жёсткий промпт с правом на отказ, заземление на источники (RAG) и обязательная проверка на выходе. Без них агент будет красиво врать клиентам от твоего имени. Смотри сюда. Модель не «обманывает» в человеческом смысле. Она предсказывает следующее слово по статистике текстов, а не сверяется с реальностью. Получается уверенный тон + ложный факт в одном флаконе. Авторы статьи OpenAI «Why Language Models Hallucinate» (4 сентября 2025) пишут прямо: стандартные процедуры обучения и оценки вознаграждают угадывание сильнее, чем признание неопределённости. На бенчмарках модель, которая всегда что-то ответит, набирает больше очков, чем та, которая иногда говорит «не знаю». Вывод для практики один: галлюцинация – это не баг конкретной модели, а системное свойство

Оглавление

Что такое галлюцинация ИИ – без терминологического тумана
Почему модели врут – корень проблемы
Насколько всё плохо – цифры, а не ощущения

Что такое галлюцинация ИИ – без терминологического тумана

Смотри сюда. Модель не «обманывает» в человеческом смысле. Она предсказывает следующее слово по статистике текстов, а не сверяется с реальностью. Получается уверенный тон + ложный факт в одном флаконе.

Авторы статьи OpenAI «Why Language Models Hallucinate» (4 сентября 2025) пишут прямо: стандартные процедуры обучения и оценки вознаграждают угадывание сильнее, чем признание неопределённости. На бенчмарках модель, которая всегда что-то ответит, набирает больше очков, чем та, которая иногда говорит «не знаю».

Вывод для практики один: галлюцинация – это не баг конкретной модели, а системное свойство технологии. Встречается у всех LLM, включая свежие рассуждающие модели. Значит, защищаться нужно не выбором «модели поумнее», а процессом: бриф, промпт, источники, проверка.

Почему модели врут – корень проблемы

Корень один: модель учится на следующее слово без сигнала «правда/ложь». Она видит миллиарды текстов, но не получает обратной связи о фактах – только «так писали люди». Когда в запросе попадается редкий или отсутствующий в обучении факт, модель достраивает его по аналогии. И мимо.

OpenAI в работе arXiv:2509.04664 показывает интересную вещь. Текущая система бенчмарков штрафует «не знаю» так же, как неправильный ответ, а правильный засчитывает как +1. Рациональная стратегия для модели – всегда угадывать. Отсюда выдуманные имена авторов, номера статей, цитаты и ссылки: статистически такие конструкции выглядят правдоподобно.

Отсюда практический принцип. Галлюцинации режутся тогда, когда в задаче явно разрешено и поощряется «не знаю». Это не настройка модели – это формулировка промпта и инструкций агента.

Насколько всё плохо – цифры, а не ощущения

Без сухой фактуры тут никак. Несколько ориентиров из независимых исследований:

Stanford RegLab, «Large Legal Fictions» (2024). 800 000+ юридических вопросов, универсальные модели. Доля галлюцинаций – 58–88%.
Та же команда, 2025 год, Journal of Empirical Legal Studies. Уже специализированные RAG-инструменты: Lexis+ AI – 17%, Westlaw AI-Assisted Research – 33%, GPT-4 на тех же запросах – 43%.
Лидерборд Vectara HHEM / FaithJudge (github.com/vectara/hallucination-leaderboard). Меряет верность ответа поданному контексту в RAG. У топовых моделей – около 1,3%, у худших – выше 15%.

Что отсюда забираем. Первое: RAG поверх универсальной модели режет галлюцинации в разы, но не до нуля. Второе: даже у лидеров остаётся ненулевой процент ошибок. Значит, проверка на выходе системы – не «опция», а обязательный слой.

Почему бизнес-бриф режет галлюцинации

Большая часть «выдумок» рождается не там, где модель не знает фактов. А там, где она не знает контекста задачи. Без понимания – для кого ответ, какие ограничения, что считается успехом – модель достраивает недостающее «по аналогии». И уезжает в кювет.

Бизнес-бриф агента – это структурированное описание: продукт, аудитория, цели, табу, тон, источники истины, формат ответа, критерии приёмки. Зашил такой бриф в системный промпт или в базу знаний – у модели появилась опора, кроме общих паттернов из обучения.

Логику подтверждает обзор getzep.com «Reducing LLM Hallucinations»: чем точнее задан контекст и инструкции, тем меньше пробелов, которые модель закрывает догадками.

Делай так: прежде чем настраивать промпт, опиши бизнес. Один лист с фактами о компании, продукте и аудитории убирает заметную долю галлюцинаций ещё до старта.

Жёсткие инструкции: как закрыть «лазейку угадывания»

После брифа идёт второй слой – формулировка инструкций. Задача простая: закрыть для модели любое место, где можно «дофантазировать».

Рабочие правила промпта:

Разреши «не знаю». Прямо: «Если данных в контексте нет – ответь «недостаточно данных» и перечисли, чего не хватает». Это разворачивает тот самый стимул из работы OpenAI: модели больше не нужно угадывать ради вежливости.
Запрети выдумывать ссылки и цифры. «Не приводи статистику, цитаты и URL, которых нет в предоставленных источниках».
Зафиксируй формат. Чем строже шаблон ответа (JSON, чек-лист, таблица), тем меньше места для «литературной» отсебятины.
Раздели шаги. Сначала «извлеки факты из источника». Потом «составь ответ только из этих фактов».
Укажи роль и аудиторию. Это отсекает домены, в которых модель любит додумывать.

Принцип: каждое правдоподобное место, где модель может «дофантазировать», закрываем явным запретом или явным разрешением сказать «не знаю». Без полумер.

RAG и заземление: дай модели источник, а не «память»

RAG (Retrieval-Augmented Generation) – архитектура, в которой система перед ответом ищет релевантные фрагменты в базе знаний и подкладывает их модели в промпт. Модель отвечает не «из головы», а из переданного контекста.

Эффект подтверждён цифрами. В юридическом исследовании Stanford переход от чистого GPT-4 (43% галлюцинаций) к RAG-системе Lexis+ AI снизил долю ошибок до 17% – почти втрое. На лидерборде Vectara, который специально меряет верность ответа поданным фактам, топовые модели держат планку около 1,3%.

Чтобы RAG реально работал, нужны три вещи:

Качество источника. Устаревшие или противоречивые документы – модель честно процитирует ошибку.
Качество поиска. Плохой ретривер тянет нерелевантные куски – модель «заземляется» на шуме.
Принудительное цитирование. В инструкции явно: «после каждого утверждения укажи, из какого документа оно взято». Это даёт прозрачность и упрощает аудит.

Нет всех трёх – RAG превращается в декорацию. Забудь про костыли вроде «подсунем пару PDF-ок и поедет».

Самопроверка через цепочку верификации (CoVe)

Помимо внешних источников, у модели можно включить внутреннюю проверку. Метод Chain-of-Verification (CoVe), предложенный командой Meta AI, разбивает ответ на четыре шага: модель даёт черновик → формирует к нему проверочные вопросы → отвечает на каждый отдельно → переписывает финальный ответ с учётом проверки.

Идея в том, что разбиение на маленькие фактологические подвопросы убивает «коллективную уверенность» длинного ответа. Когда модель отвечает на «в каком году компания X вышла на IPO» изолированно – она реже додумывает дату, чем когда та же дата вшита в большой нарратив.

CoVe и его аналоги (self-consistency, self-check, multi-sample voting) уместны там, где цена ошибки выше цены задержки: юридические, финансовые, медицинские, договорные сценарии. Для бытовых задач хватит одной итерации. Для критичных шагов пайплайна – верификация по умолчанию.

Как проверять выход агента в проде

Даже с брифом, инструкциями, RAG и самопроверкой остаётся ненулевая доля ошибок. Поэтому надёжная система агентов всегда содержит слой контроля на выходе. Это уже не теория – это базовая инженерная практика 2025–2026.

Рабочие подходы (см. обзор futureagi.com «Detect Hallucinations in Generative AI»):

NLI-проверка (faithfulness). Отдельная модель проверяет, следует ли ответ из переданного контекста. Не следует – флаг.
SelfCheckGPT / multi-sample. Один вопрос задаётся 3–5 раз. Противоречия в ответах – сигнал галлюцинации.
LLM-as-a-judge. Вторая модель оценивает первую по фиксированному чек-листу: есть ли источник, есть ли запрещённые формулировки, соответствует ли формату.
Детерминированные валидаторы. Регулярки и схемы: проверка дат, валюты, ИНН, URL, JSON-схем.
Human-in-the-loop. В критичных шагах – подтверждение оператора до отправки клиенту или в систему.

Главное правило простое: ни один внешний ответ агента не уходит без хотя бы одной автоматической проверки. Точка.

Чек-лист: надёжная система агентов без галлюцинаций

Сводный список. Прогоняй по своему сценарию уже сегодня:

Есть бизнес-бриф агента: продукт, аудитория, табу, источники истины, тон, формат.
В системном промпте явно разрешено и предписано отвечать «недостаточно данных», когда контекста не хватает.
Запрещены выдуманные ссылки, цитаты, цифры, имена, даты.
Ответ строится из переданного контекста (RAG), а не из «общих знаний» модели.
База знаний актуальна и почищена от противоречий; задан регламент обновления.
В ответе обязательны ссылки на конкретные куски-источники.
Критичные шаги обёрнуты в самопроверку (CoVe / self-check).
На выходе работает слой автоматической проверки: NLI, схемы, валидаторы.
В высокорисковых сценариях есть подтверждение человеком.
Ведётся лог ошибок и регулярный разбор кейсов с обновлением промпта и базы.

Десять пунктов закрывают подавляющее большинство ситуаций, где ИИ «врёт уверенно».

📚 Хочешь собрать надёжную систему агентов без галлюцинаций по шагам – от брифа и промпта до RAG и проверки? Разбираем это на практике в бесплатном курсе СОЗИДАЙ.