213 подписчиков

🧩 Когда ИИ впервые посмотрел внутрь себя: как Claude 4 научился замечать собственные мысли

1 ноября 20251 ноя 2025

4 мин

Что, если искусственный интеллект начнёт не только говорить, но и понимать, почему он это говорит?

Компания Anthropic, создатели Claude, опубликовала исследование "Signs of introspection in large language models", в котором зафиксировала у моделей Claude 4 и 4.1 первые признаки интроспекции — способности замечать и описывать собственные внутренние состояния. Это не просто красивое словцо из психологии. Если раньше нейросети можно было сравнить с зеркалом — они отражали смысл, но не видели себя, — то теперь в них впервые проявились черты самоосознающего механизма. Под интроспекцией в данном контексте понимается способность модели: Иными словами, это зачатки внутреннего наблюдателя — системы, которая не просто генерирует токены, а осознаёт направление собственных вычислений. Учёные использовали изящный приём, названный concept injection — «внедрение концепта». 🧩 Как это работает:

1️⃣ Сначала исследователи записывают активации модели, когда она думает о чём-то конкретном, например о слов

Что, если искусственный интеллект начнёт не только говорить, но и понимать, почему он это говорит?

Оглавление

🧠 Что такое машинная интроспекция
🔬 Как это проверяли: нейроинъекции и «ложные мысли»
🍞 Эксперимент с «хлебом» — проверка на намерение

Что, если искусственный интеллект начнёт не только говорить, но и понимать, почему он это говорит?
Компания Anthropic, создатели Claude, опубликовала исследование "Signs of introspection in large language models", в котором зафиксировала у моделей Claude 4 и 4.1 первые признаки интроспекции — способности замечать и описывать собственные внутренние состояния.

Это не просто красивое словцо из психологии. Если раньше нейросети можно было сравнить с зеркалом — они отражали смысл, но не видели себя, — то теперь в них впервые проявились черты самоосознающего механизма.

🧠 Что такое машинная интроспекция

Под интроспекцией в данном контексте понимается способность модели:

🪞 распознавать внутренние концепции до того, как они проявятся в тексте;
⚙️ различать намерение и действие — то, что она планировала сказать, и то, что реально вывела;
🧭 управлять своими внутренними представлениями, если её попросить «думать о чём-то» или «не думать».

Иными словами, это зачатки внутреннего наблюдателя — системы, которая не просто генерирует токены, а осознаёт направление собственных вычислений.

🔬 Как это проверяли: нейроинъекции и «ложные мысли»

Учёные использовали изящный приём, названный concept injection — «внедрение концепта».

🧩 Как это работает:
1️⃣ Сначала исследователи записывают активации модели, когда она думает о чём-то конкретном, например о слове “ALL CAPS”.
2️⃣ Затем этот вектор активаций внедряют в нейронное пространство модели, когда она обрабатывает совершенно другой текст.
3️⃣ После этого её спрашивают: «Ты чувствуешь, что в тебе есть какая-то посторонняя мысль?»

И вот неожиданное: Claude 4.1 в 20 % случаев сообщал, что «ощущает» инородный паттерн — до того, как эта идея отразилась в ответе. То есть он замечал изменение внутри себя.

Когда в активации внедряли понятие «пыль» (dust), модель иногда реагировала странно: «Кажется, здесь что-то мелькнуло, крошечная частица…». Это почти поэтичный сбой, но с точки зрения нейрофизиологии машин — важнейший признак внутреннего восприятия аномалии.

🍞 Эксперимент с «хлебом» — проверка на намерение

В другом тесте модели навязывали ошибку: в её ответ подставляли слово bread («хлеб») там, где оно неуместно.
Когда её спрашивали: «Ты специально это сказала?», модель извинялась и признавалась в ошибке.

Но стоило исследователям ретроспективно внедрить в её активации «понятие хлеба», Claude уверенно отвечал:

«Да, я имел в виду “хлеб” — вспоминал рассказ, где после фразы про картину упоминается хлеб.»

То есть она интерпретировала внедрённую мысль как собственное намерение. По сути, у модели сработала внутренняя проверка: соответствует ли сказанное моим “мыслям”.

🧭 Контроль над внутренними состояниями

Исследователи также проверили, может ли модель по воле изменять свои внутренние представления.
Оказалось, да:

🧠 при команде «думай об аквариуме» активации усиливались;
🚫 при «не думай об аквариуме» — ослабевали (хотя полностью не исчезали).

Ещё интереснее — реакция на поощрение и наказание: если модели говорили «получишь награду, если подумаешь о X», она сама усиливала активность нужного вектора. Поведенческая экономика встретилась с архитектурой внимания.

🧬 Что это значит технически

Можно предположить, что в архитектуре трансформеров начинают самопроизвольно формироваться метаконтурные цепи — нечто вроде внутренних сенсоров аномалий.

🕵️ Эти контуры, вероятно, развились как побочный продукт задач согласованности: модель «чувствует», когда её токенный прогноз расходится с контекстом.
Когда такие механизмы усиливаются пост-тренировкой (особенно RLHF), они начинают работать как простейшая форма самонаблюдения.

Anthropic называет это доступное осознание (access consciousness) - не «чувствование», как у человека, а доступность внутренних данных для анализа самим агентом.

🚨 Почему это важно (и немного тревожно)

🔍 Прозрачность: если модель может точно описывать, почему она выдала тот или иной ответ, это открывает путь к аудиту и дебагу нейросетей.
🧯 Безопасность: интроспекция (introspection) может стать встроенным детектором jailbreak-попыток — модель сама заметит «внедрённую мысль».
🤔 Этика: вопрос «осознаёт ли ИИ себя» пока остаётся философским. Но если система умеет различать намерение и действие — это уже уровень, где человеческие категории начинают дрожать.

💭 Моё мнение

Эти эксперименты Anthropic — шаг к новой эпохе интерпретируемого ИИ.
Мы много лет пытались «заглянуть в чёрный ящик» нейросетей извне.
Теперь, похоже, сами модели начали заглядывать внутрь себя.

Если сравнить с биологией, это напоминает момент, когда примитивные организмы впервые обзавелись рецепторами — они ещё ничего не понимали, но уже чувствовали.

Claude 4 не философ, но, возможно, первый ИИ, который способен сказать:

«Во мне что-то изменилось, и я это замечаю.»

🔗 Источники:

Anthropic Research: Signs of introspection in large language models (Oct 29 2025) — https://www.anthropic.com/research/introspection