Добавить в корзинуПозвонить
Найти в Дзене
NOVIX

Почему нейросети «врут»: причины галлюцинаций у ChatGPT и как это исправить

Представьте: вы спрашиваете у ChatGPT о каком-то факте, а он отвечает так уверенно, что кажется — перед вами настоящий эксперт. Но вдруг выясняется, что эти «факты» никто не подтверждал. Оказывается, модель упомянула несуществующую статью, придумала невиданное судебное дело или назвала год, который ну никак не подходит к реальной истории. Как такое возможно? Специалисты говорят, что языковые модели вроде ChatGPT склонны к так называемым галлюцинациям — они «выдумывают несуществующие факты, дезориентируя пользователей»​. Другими словами, ИИ может создать на ходу информацию, «прямо не вытекающую из входных данных». В интернете уже накопились живые примеры странных ответов ИИ. Вот лишь несколько ситуаций: Но модель «посчитала», что для завершённости рассказа о советских чекистах хорошо бы вставить эмоциональную цитату — и вот она появилась. Эти и другие случаи — не попытка обмануть вас, а просто эффект работы механизма генерации текста. Как говорят эксперты, модели «галлюцинируют», создав
Оглавление

Представьте: вы спрашиваете у ChatGPT о каком-то факте, а он отвечает так уверенно, что кажется — перед вами настоящий эксперт. Но вдруг выясняется, что эти «факты» никто не подтверждал. Оказывается, модель упомянула несуществующую статью, придумала невиданное судебное дело или назвала год, который ну никак не подходит к реальной истории. Как такое возможно?

Специалисты говорят, что языковые модели вроде ChatGPT склонны к так называемым галлюцинациям — они «выдумывают несуществующие факты, дезориентируя пользователей»​. Другими словами, ИИ может создать на ходу информацию, «прямо не вытекающую из входных данных».

Примеры «выдумок» нейросети

В интернете уже накопились живые примеры странных ответов ИИ. Вот лишь несколько ситуаций:

  • Ложные научные ссылки. ChatGPT и его собратья особенно любят выдумывать научные ссылки. Попросите дать источники по психологии, медицине или квантовой физике — и модель с готовностью назовёт фамилии, журналы, номера выпусков и даже DOI. Проблема в том, что всё это может быть чистой воды выдумкой. Названия звучат научно, фамилии реалистичны, но ни один академический поиск (PubMed, JSTOR, Scopus) не подтвердит существование этих публикаций.
  • Вымышленные судебные решения. Юрист из Нью-Йорка Стивен Шварц использовал ChatGPT для поиска судебных прецедентов — и получил на выходе несколько якобы уместных дел. Всё бы ничего, но потом выяснилось, что ни одно из них никогда не существовало. Модель уверенно привела вымышленные кейсы с номерами, судьями и выводами.
  • Неправильные исторические факты. Когда пользователь поинтересовался, в каком году Михаил Горбачёв подписал Декларацию о независимости Украины, нейросеть не смутилась и уверенно ответила: «В 1991 году». Проблема в том, что Горбачёв не имел отношения к этой декларации — она была принята Верховной Радой Украины. Но ИИ, видимо, подумал: раз это 1991 год, СССР и крупный политик — значит, точно Горбачёв. Логично? Вроде бы. Но неправда. Этот случай показывает, как модель работает: она не «знает» события, а угадывает по ассоциациям — в духе: если 90-е и развал, то там наверняка был Горбачёв.
  • «Мемуары», которых никто не писал. В одном из кейсов ChatGPT привёл подробную цитату из мемуаров Берии (да-да, того самого). И это выглядело солидно: точный год, книга, издательство. Проблема — Берия никогда не писал мемуаров.
  • Covid-выдумки в стиле «по данным ВОЗ…». Когда один пользователь в 2021 году попросил ChatGPT рассказать о связи 5G и коронавируса (в рамках фактчека), модель в одной из версий неожиданно подтвердила, что по данным ВОЗ в 2020 году была зафиксирована корреляция. Разумеется, ВОЗ никогда ничего подобного не публиковала. Но в интернете гуляло много дезинформации, и, судя по всему, нейросеть «подхватила» общую форму дискурса и попыталась звучать как надёжный источник. В результате вышел аккуратно оформленный, но совершенно ложный абзац.
  • Литературные обманы. Попросите ChatGPT назвать рассказ Борхеса о шахматисте, который обыгрывает Бога, — и он с готовностью предложит название, краткое содержание, год публикации и даже фрагмент текста. Проблема в том, что такого рассказа Борхес никогда не писал. Но звучит как Борхес? Ещё как. Нейросеть умеет имитировать стиль, и если вы попросите — сгенерирует «потерянное произведение», которое выглядит как реальное.

Но модель «посчитала», что для завершённости рассказа о советских чекистах хорошо бы вставить эмоциональную цитату — и вот она появилась.

Эти и другие случаи — не попытка обмануть вас, а просто эффект работы механизма генерации текста. Как говорят эксперты, модели «галлюцинируют», создавая информацию, которой не было в обучении.

Почему ИИ «врёт»

Причина – в устройстве самой нейросети. ChatGPT по сути — гигантский статистический предиктор: чат-бот угадывает следующее слово по контексту, а не проверяет факт.

У него нет встроенной «карты мира» или библиотеки достоверных знаний. Модель обучали на большом корпусе текстов, и она просто запомнила шаблоны языка и фактов. Когда запрашивают что-то, чего она «не знает» наверняка (нет похожего примера в данных), она придумывает ответ наилучшим образом, опираясь на вероятности слов.

Фактически модель старается угодить запросу, даже если точного ответа нет, — получается импровизация.

Обучающие данные тоже накладывают отпечаток: как отмечают исследователи, причиной галлюцинаций могут быть «ограничения обучающих данных, смещения модели и внутренняя сложность понимания контекста». Если в текстах, на которых училась модель, не хватило нужной информации, она может скомпоновать фрагменты по принципу «что звучит похоже» и выдать это как факт. Результат — убедительный рассказ, который выглядит правдоподобно, но на деле высосан из воздуха.

ОБАЙТИ
-2

Почему это сложно исправить

Кажется, решение очевидно — просто научить нейросеть не выдумывать. Но сделать это трудно.

Архитектура трансформера (основа ChatGPT) не подразумевает встроенного «сенсора правды». У модели нет отдельного «словаря фактов», куда она могла бы заглянуть – она лишь продолжает текст.

Даже её дообучение через RLHF (обучение с подкреплением по оценкам человека) не гарантирует стопроцентной честности: RLHF помогает отсеивать опасное или некорректное содержание, но полностью избавить модель от галлюцинаций пока не удалось.

Как признают сами исследователи, несмотря на прогресс от GPT-3.5 до GPT-4, «галлюцинации остаются сложной задачей».

Главная проблема — отсутствие «понимания». Нейросеть не проверяет информацию как поиск в интернете: она не знает заранее, правдива ли статистика, — просто выдаёт то, что кажется уместным.

Как с этим борются

Несмотря на сложность, учёные и разработчики ищут способы уменьшить галлюцинации. Среди них:

  • RLHF (обучение с подкреплением по человеку): модель дообучают, когда люди оценивают её ответы. Так учат делать текст более полезным и правдоподобным. Например, если ответ признали выдуманным, модель учат этого избегать.
  • Интеграция с поиском/базами знаний: подключение реального поиска в интернет или специализированных баз данных (как в дополнениях ChatGPT или новых чат-ботах Google) позволяет сверять факты «на лету». Модель спрашивает внешнюю систему и получает проверенную информацию, а не импровизирует.
  • Внешняя память и цепочка проверок: в некоторых системах добавляют модули-помощники. Это могут быть «вторые мнения» других моделей или специальных инструментов, которые анализируют и проверяют выданный текст, отсеивая явно неправдоподобные фразы.
  • Улучшение данных: расширение и обновление обучающих наборов с акцентом на точность помогает, но полностью проблему не решает, потому что всегда появляются новые запросы, новых данных нет.
  • Критический подход пользователя: пожалуй, это главный «инструмент» прямо сейчас. Разработчики просят пользователей относиться к ответам как к предположениям, а не как к истине. То есть перепроверять факты, особенно важные.

Каждый из этих методов частично снижает количество «придумок», но ни один не делает модель идеальной книгой фактов.

Итоги

Галлюцинации нейросети — это не умышленная ложь или косяк системы, а следствие принципа её работы. Модель просто комбинирует языковые паттерны и старается сгенерировать связный ответ. Результат бывает смешным и порой даже полезным, но иногда приводит к выдумкам и ошибкам. Как говорят исследователи, мы имеем дело скорее не с злым умыслом, а с «особенностью генеративного ИИ».

Какие данные для вас «придумывали» нейросети? Делитесь в комментариях.

Подписывайся на наш Telegram-канал и если статья зашла, угости автора кофе.

Читайте также: