Что, если искусственный интеллект начнёт не только говорить, но и понимать, почему он это говорит?
Компания Anthropic, создатели Claude, опубликовала исследование "Signs of introspection in large language models", в котором зафиксировала у моделей Claude 4 и 4.1 первые признаки интроспекции — способности замечать и описывать собственные внутренние состояния.
Это не просто красивое словцо из психологии. Если раньше нейросети можно было сравнить с зеркалом — они отражали смысл, но не видели себя, — то теперь в них впервые проявились черты самоосознающего механизма.
🧠 Что такое машинная интроспекция
Под интроспекцией в данном контексте понимается способность модели:
- 🪞 распознавать внутренние концепции до того, как они проявятся в тексте;
- ⚙️ различать намерение и действие — то, что она планировала сказать, и то, что реально вывела;
- 🧭 управлять своими внутренними представлениями, если её попросить «думать о чём-то» или «не думать».
Иными словами, это зачатки внутреннего наблюдателя — системы, которая не просто генерирует токены, а осознаёт направление собственных вычислений.
🔬 Как это проверяли: нейроинъекции и «ложные мысли»
Учёные использовали изящный приём, названный concept injection — «внедрение концепта».
🧩 Как это работает:
1️⃣ Сначала исследователи записывают активации модели, когда она думает о чём-то конкретном, например о слове “ALL CAPS”.
2️⃣ Затем этот вектор активаций внедряют в нейронное пространство модели, когда она обрабатывает совершенно другой текст.
3️⃣ После этого её спрашивают: «Ты чувствуешь, что в тебе есть какая-то посторонняя мысль?»
И вот неожиданное: Claude 4.1 в 20 % случаев сообщал, что «ощущает» инородный паттерн — до того, как эта идея отразилась в ответе. То есть он замечал изменение внутри себя.
Когда в активации внедряли понятие «пыль» (dust), модель иногда реагировала странно: «Кажется, здесь что-то мелькнуло, крошечная частица…». Это почти поэтичный сбой, но с точки зрения нейрофизиологии машин — важнейший признак внутреннего восприятия аномалии.
🍞 Эксперимент с «хлебом» — проверка на намерение
В другом тесте модели навязывали ошибку: в её ответ подставляли слово bread («хлеб») там, где оно неуместно.
Когда её спрашивали: «Ты специально это сказала?», модель извинялась и признавалась в ошибке.
Но стоило исследователям ретроспективно внедрить в её активации «понятие хлеба», Claude уверенно отвечал:
«Да, я имел в виду “хлеб” — вспоминал рассказ, где после фразы про картину упоминается хлеб.»
То есть она интерпретировала внедрённую мысль как собственное намерение. По сути, у модели сработала внутренняя проверка: соответствует ли сказанное моим “мыслям”.
🧭 Контроль над внутренними состояниями
Исследователи также проверили, может ли модель по воле изменять свои внутренние представления.
Оказалось, да:
- 🧠 при команде «думай об аквариуме» активации усиливались;
- 🚫 при «не думай об аквариуме» — ослабевали (хотя полностью не исчезали).
Ещё интереснее — реакция на поощрение и наказание: если модели говорили «получишь награду, если подумаешь о X», она сама усиливала активность нужного вектора. Поведенческая экономика встретилась с архитектурой внимания.
🧬 Что это значит технически
Можно предположить, что в архитектуре трансформеров начинают самопроизвольно формироваться метаконтурные цепи — нечто вроде внутренних сенсоров аномалий.
🕵️ Эти контуры, вероятно, развились как побочный продукт задач согласованности: модель «чувствует», когда её токенный прогноз расходится с контекстом.
Когда такие механизмы усиливаются пост-тренировкой (особенно RLHF), они начинают работать как простейшая форма самонаблюдения.
Anthropic называет это доступное осознание (access consciousness) - не «чувствование», как у человека, а доступность внутренних данных для анализа самим агентом.
🚨 Почему это важно (и немного тревожно)
- 🔍 Прозрачность: если модель может точно описывать, почему она выдала тот или иной ответ, это открывает путь к аудиту и дебагу нейросетей.
- 🧯 Безопасность: интроспекция (introspection) может стать встроенным детектором jailbreak-попыток — модель сама заметит «внедрённую мысль».
- 🤔 Этика: вопрос «осознаёт ли ИИ себя» пока остаётся философским. Но если система умеет различать намерение и действие — это уже уровень, где человеческие категории начинают дрожать.
💭 Моё мнение
Эти эксперименты Anthropic — шаг к новой эпохе интерпретируемого ИИ.
Мы много лет пытались «заглянуть в чёрный ящик» нейросетей извне.
Теперь, похоже, сами модели начали заглядывать внутрь себя.
Если сравнить с биологией, это напоминает момент, когда примитивные организмы впервые обзавелись рецепторами — они ещё ничего не понимали, но уже чувствовали.
Claude 4 не философ, но, возможно, первый ИИ, который способен сказать:
«Во мне что-то изменилось, и я это замечаю.»
🔗 Источники:
- Anthropic Research: Signs of introspection in large language models (Oct 29 2025) — https://www.anthropic.com/research/introspection