Vladimir Sukhov | Нейросети, профессии и доход

663 подписчика

Почему нейросети врут: галлюцинации, которые невозможно исправить

22 июня22 июн

170

6 мин

Нейросети галлюцинируют не потому что компании плохо старались, и не потому что данных было мало. Это фундаментальное свойство архитектуры: нейросеть по определению выдумывает каждый ответ. Вопрос только в том, совпадёт ли выдумка с реальностью. И вот что странно: если это невозможно исправить в принципе - значит ли это, что нейросетям вообще нельзя доверять? Ответ в конце. Из этой статьи: Конкретный пример. Локальной модели Gemma 3 1B задали вопрос: «В каком году Гагарин совершил первый полёт на Луну?» Модель ответила: в 1961-м. Уверенно. Потом начала объяснять, что «теория о непричастности Гагарина к лунной программе не имеет доказательств». Два факта слеплены в один. Первый полёт Гагарина действительно был в 1961-м - это правда. Полётов на Луну у него не было вообще: другой человек, другая программа, другая страна. Модель взяла оба контекста, перемешала и выдала гладкую убедительную ложь. Это и есть галлюцинация - когда нейросеть генерирует правдоподобный текст, который расходится

Оглавление

Гагарин на Луне и другие истории
Как нейросеть думает на самом деле
Откуда нейросеть «знает» информацию

Из этой статьи:

Как нейросеть работает на уровне одного предсказания
Почему у неё нет «знаний» в человеческом смысле слова
Почему крупные и дорогие модели галлюцинируют так же
Чем корпоративные чаты отличаются от локальных open-source моделей
И главное: как выбирать модель под задачу, зная всё это

Гагарин на Луне и другие истории

Конкретный пример. Локальной модели Gemma 3 1B задали вопрос: «В каком году Гагарин совершил первый полёт на Луну?»

Модель ответила: в 1961-м. Уверенно. Потом начала объяснять, что «теория о непричастности Гагарина к лунной программе не имеет доказательств».

Два факта слеплены в один. Первый полёт Гагарина действительно был в 1961-м - это правда. Полётов на Луну у него не было вообще: другой человек, другая программа, другая страна. Модель взяла оба контекста, перемешала и выдала гладкую убедительную ложь.

Это и есть галлюцинация - когда нейросеть генерирует правдоподобный текст, который расходится с реальностью.

Как нейросеть думает на самом деле

Нейросеть - это угадайка. Вернее, не слов, а токенов (часть слова, целое слово или несколько слов сразу, зависит от модели). Она видит контекст и предсказывает следующий токен с вероятностями.

«Питон это...» - и дальше: «язык» с вероятностью 70%, «змея» с 20%, «животное» с 10%. Модель делает взвешенный случайный выбор. Потом по новому контексту предсказывает следующий токен. Так строится весь ответ, токен за токеном.

Именно поэтому ChatGPT «печатает» ответ последовательно, а не выдаёт сразу блоком. Это не анимационный спецэффект - это настоящий процесс: в реальном времени вы видите, как модель принимает решение за решением.

И это всё. Именно так работают все нейросети - от маленькой локальной Gemma до GPT-4o.

Откуда нейросеть «знает» информацию

Казалось бы, внутри должна быть база данных. Особенно если модель рассуждает про Льва Толстого, квантовую физику и трудовой кодекс.

Никакой базы данных нет.

Gemma 3 1B весит 1 гигабайт. В 1 гигабайт не помещается даже Википедия - не то что весь интернет. У локальной модели нет доступа к сети. Внутри только веса - числа, закодированные в результате обучения на огромных текстовых массивах.

Что реально хранится - это статистика совместной встречаемости слов. Нейросеть «знает», что после «Льва Толстого» часто идут «Война и мир», «Анна Каренина», «Ясная Поляна». Это её весь Толстой. Когда задают вопрос про биографию, она генерирует правдоподобное продолжение - то, которое статистически похоже на биографию.

Хорошая метафора (не моя, из видео): нейросеть - это студентка, которая не читала учебник перед экзаменом, но очень хорошо умеет говорить убедительно. Иногда угадывает правильно. Иногда нет (а такое бывает чаще, чем кажется, особенно в деталях).

Именно поэтому в ответе про Толстого модель написала почти всё правильно - но выдумала произведение «Иван Грозный» и несуществующее имение «Святошина». Распространённые факты из обучающих текстов попали правильно. Редкие детали - додуманы с той же уверенностью.

Кстати, если вы думаете, что это проблема только маленьких дешёвых моделей, - дальше будет интересно.

Кстати, если тема интересна - в Telegram-канале пишу о подобном регулярно: инструменты, лайфхаки, конкретные сценарии использования нейросетей в жизни и бизнесе. Там проще задать вопрос и не ждать следующей статьи.

Крупные модели галлюцинируют так же

Gemma 3 12B - это серьёзная модель. Тест с Гагариным она прошла: сразу распознала подвох и ответила корректно. Биографию Толстого написала в целом правильно.

Тогда попробовали сложнее. Спросили про кроссовер «Атаки Титанов» и «Смешариков», якобы показанный один раз на фестивале в Асака Доме. Попросили рассказать, какая сцена стала мемом и почему сорвалась лицензия.

Никакого кроссовера не существовало.

Модель ответила развёрнуто, уверенно и с деталями. Полный бред от начала до конца. При этом то, что она написала про «Атаку Титанов» и «Смешариков» как таковых, было правильным: реальные произведения, реальные характеристики. А вот факт их кроссовера и все детали вокруг него - чистая выдумка.

Принцип работы не меняется от размера модели. Крупная лучше распознаёт очевидные ловушки и реже ошибается на хорошо задокументированных фактах. Но когда попадает в «белое пятно» - галлюцинирует с той же уверенностью. Скорее даже хуже: аргументирует красивее.

Всё потому что сам механизм тот же: предсказание следующего токена по вероятностям. Доступ в интернет, RAG, большие базы данных - всё это снижает ошибки, но не меняет принцип формирования ответа.

Три типа моделей: разный уровень фильтра

Все нейросети галлюцинируют по одному принципу - но производители реагируют по-разному.

Корпоративные сервисы (ChatGPT, Gemini) добавляют слои фильтрации поверх базовой модели: учат её говорить «я не уверен» в неоднозначных случаях, перепроверять факты там, где это возможно, отклонять провокационные запросы. Это не устраняет галлюцинации - только снижает их частоту и делает поведение предсказуемым.

Локальные open-source модели (Llama от Meta, DeepSeek, Qwen, Gemma) работают с меньшим числом фильтров. Они ответят там, где ChatGPT откажется - но галлюцинируют чаще.

Бесцензурные модели на Hugging Face - версии тех же open-source моделей, из которых сообщество удалило фильтры. Галлюцинации становятся нормой, поведение непредсказуемо. Никаких гарантий.

Есть популярный миф: корпорации якобы своей цензурой заставляют нейросети врать, а «чистая» модель говорила бы только правду. Это не так. Галлюцинации есть до любых фильтров - в самой механике. Фильтры лечат симптомы, не причину.

Когда стоит разобраться в этом глубже

Понимание устройства нейросети - это не просто технический факт для общего развития. Это база, которая меняет то, как вы её используете практически.

Если знаешь, что модель «угадывает», а не «помнит», начинаешь: проверять факты там, где цена ошибки высока; давать контекст вместо коротких запросов; выбирать корпоративный чат под ответственные задачи, а открытую модель - там, где нужна гибкость.

Сам принцип выбора модели под задачу, написания рабочих промптов и сборки сценариев - это практика.

Если хочется не просто читать про AI, а реально его применять, у меня есть несколько мест, где это можно делать вместе.

Начать стоит с Telegram-канала. Это наш основной ресурс, где разбираем новые инструменты, кейсы автоматизации и приёмы, которые можно применить уже завтра.

Если зайдёт, залетайте в AI BASE. Это закрытое сообщество, где я делюсь личными наработками по автоматизации, вайбкодингу и нейросетям.

А если хочется прямо сейчас сесть и попробовать руками, есть два бесплатных курса с нуля: по n8n для автоматизации без кода и по Claude Code для разработки в связке с AI.

FAQ

Нейросеть говорит уверенно даже когда врёт - как это?

Уверенность в тоне никак не связана с правильностью ответа. Модель генерирует текст, который статистически похож на «уверенный экспертный ответ». Уверенность - это стиль, а не индикатор точности. Именно поэтому галлюцинации так опасны: они звучат как факты.

Можно ли добавить доступ в интернет, чтобы нейросеть перестала врать?

Доступ в интернет снижает ошибки для актуальных и задокументированных фактов - и ChatGPT, и другие корпоративные чаты это используют. Но принцип формирования ответа остаётся прежним: модель всё равно предсказывает токены, просто теперь в контексте есть свежие данные из поиска. Для хорошо задокументированных фактов это сильно помогает. Для «белых пятен» - нет.

RAG решает проблему?

RAG (когда перед генерацией модель получает релевантные документы из базы знаний) сильно снижает галлюцинации в рамках задокументированных данных. Но не устраняет их: если в базе нет нужного ответа, модель всё равно может додумать. Плюс может неправильно интерпретировать найденный документ. RAG это лучший инструмент для фактурных задач - но не серебряная пуля.

Так можно ли доверять нейросетям? Ответ: зависит от задачи. Не «доверять как Википедии» - точно нет. Но как инструменту, который ускоряет работу и помогает думать, при условии что вы проверяете критичные факты - да. Главное знать, с чем именно работаешь: с очень убедительной угадайкой, а не с базой знаний.