Найти в Дзене
IT Vibe

​​Галлюцинации нейросетей объяснили на пальцах

​​Галлюцинации нейросетей объяснили на пальцах OpenAI выпустили новую исследовательскую статью, в которой пытаются системно объяснить феномен галлюцинаций в LLM. Главная мысль проста: это не баг мистического характера, а закономерный результат статистической природы моделей и способов их обучения. Почему возникают галлюцинации: – На этапе предобучения модель всегда обязана предлагать продолжение текста. Варианта «я не знаю» у неё нет, а штрафов за выдумку мы тоже не вводим. – Даже при идеально чистых данных (что невозможно) ошибки неизбежны: многие факты в мире уникальны и случайны, закономерностей для их предсказания не существует. – Пост-обучение не решает проблему, потому что бенчмарки устроены бинарно: за правильный ответ — балл, за «не знаю» или неверный — ноль. В такой системе выгоднее угадать, чем промолчать. – Дополнительный фактор — GIGO: ошибки в исходных данных порождают ошибки на выходе. В результате модель уверенно генерирует ложь, потому что статистически так выгоднее.

​​Галлюцинации нейросетей объяснили на пальцах

OpenAI выпустили новую исследовательскую статью, в которой пытаются системно объяснить феномен галлюцинаций в LLM. Главная мысль проста: это не баг мистического характера, а закономерный результат статистической природы моделей и способов их обучения.

Почему возникают галлюцинации:

– На этапе предобучения модель всегда обязана предлагать продолжение текста. Варианта «я не знаю» у неё нет, а штрафов за выдумку мы тоже не вводим.

– Даже при идеально чистых данных (что невозможно) ошибки неизбежны: многие факты в мире уникальны и случайны, закономерностей для их предсказания не существует.

– Пост-обучение не решает проблему, потому что бенчмарки устроены бинарно: за правильный ответ — балл, за «не знаю» или неверный — ноль. В такой системе выгоднее угадать, чем промолчать.

– Дополнительный фактор — GIGO: ошибки в исходных данных порождают ошибки на выходе.

В результате модель уверенно генерирует ложь, потому что статистически так выгоднее.

Что предлагает OpenAI:

– Не создавать отдельные анти-галлюцинационные тесты, а менять сами метрики.

– Ввести IDK («Не знаю») как валидный ответ.

– Настроить систему штрафов и бонусов: +1 за правильный ответ, 0 за «не знаю», −2 за ложь.

– Использовать confidence targets: модель отвечает только если вероятность правильного ответа выше заданного порога (например, 75%).

Таким образом, модели учатся честности, а не угадыванию. Для исследовательских платформ вроде Hugging Face переход на такие метрики возможен за считанные месяцы.

Остаётся вопрос: останется ли это идеей в статье или превратится в новый стандарт оценки LLM.

#OpenAI #LLM #исследования

🔳 IT Vibe News