Найти в Дзене
Цифровая Переплавка

🧠 Почему языковые модели «галлюцинируют» и что с этим делать

Оглавление

В последние годы мы привыкли к тому, что большие языковые модели вроде GPT могут писать статьи, решать задачи и даже объяснять научные концепции. Но вместе с этим возникло понятие «галлюцинации» — когда модель уверенно выдаёт неправду. OpenAI в своём исследовании Why language models hallucinate подробно объяснила, откуда берётся эта проблема и почему полностью избавиться от неё пока невозможно.

🔍 Почему это происходит

У галлюцинаций несколько источников:

📊 Цель обучения — модель предсказывает следующий токен по статистическим паттернам, а не проверяет факты. Она оптимизирована на правдоподобие текста, а не на истинность.

🌍 Несоответствие данных и запросов — в реальной жизни пользователи задают вопросы, на которые в обучающих данных может просто не быть ответа.

🌀 Стратегии декодирования — greedy search, beam search или сэмплинг усиливают уверенность модели, даже если база для ответа слабая.

🏆 Метрики — современные тесты поощряют угадывание, а не «смиренное» признание незнания. В итоге модели учатся чаще рисковать.

🧮 Пример с «экзаменом»

Представьте экзамен с тестами:

  • если вы угадаете — шанс получить балл;
  • если честно скажете «не знаю» — баллов не будет.

Модель выбирает угадывание, ведь так она «лучше выглядит» в метриках. Но именно это и создаёт галлюцинации.

🛠 Что помогает снизить проблему

Сейчас исследователи используют несколько подходов:

🔎 RAG (retrieval-augmented generation) — подключение внешних баз знаний для фактической поддержки ответов.
🧩
Инструменты и плагины — например, калькулятор или поиск.
🤝
RLHF (обучение с подкреплением от человека) — дообучение на предпочтениях людей, чтобы модель училась признавать неопределённость.
✍️
Улучшение промптов — корректно заданный запрос снижает шанс на ошибку.

💡 Мой взгляд

Меня впечатляет, что проблема здесь не столько в «умности» моделей, сколько в статистической природе обучения. Они невероятно хорошо схватывают закономерности, но когда речь заходит о редких фактах, мы словно спрашиваем у них дату дня рождения кота из случайной фотографии — информация просто недоступна, и модель вынуждена «догадаться».

Важно, что OpenAI честно признаёт: полностью избавиться от галлюцинаций нельзя, но можно изменить систему оценивания. Если мы перестанем поощрять угадывания и начнём ценить честное «не знаю», это не только сделает модели надёжнее, но и изменит стиль взаимодействия человека с ИИ.

📚 Ссылки:
🔗 OpenAI:
Why language models hallucinate