Найти в Дзене
Машинное обучение

⚡️ Новая работа Harvard - LLM чувствуют «силу мысли», но не понимают её источник

Исследователи показали: большие языковые модели могут ощущать, что на их внутреннее состояние что-то сильно влияет, но при этом обычно не способны объяснить, что именно. Что сделали авторы: - Они искусственно «подталкивают» скрытые активации модели в заданном направлении - Модель часто может определить насколько сильным был этот сдвиг - Но даже заметив изменение внутри себя, она не может корректно назвать внедрённый концепт, например «предательство» или «спутники» Проще говоря: Модель может сказать «на меня сейчас сильно что-то влияет», но не может надёжно сказать «это именно концепт предательства» Поэтому авторы называют это частичной интроспекцией: - модель считывает простой сигнал (силу воздействия) - но не понимает смысл собственного внутреннего состояния Результаты: - На Llama 3.1 8B Instruct модель определяет силу инъекции (от слабой до очень сильной) с точностью около 70% - Случайный уровень - 25% - Корректно назвать сам концепт удаётся лишь примерно в 20% случаев - Переформ

⚡️ Новая работа Harvard - LLM чувствуют «силу мысли», но не понимают её источник

Исследователи показали: большие языковые модели могут ощущать, что на их внутреннее состояние что-то сильно влияет, но при этом обычно не способны объяснить, что именно.

Что сделали авторы:

- Они искусственно «подталкивают» скрытые активации модели в заданном направлении

- Модель часто может определить насколько сильным был этот сдвиг

- Но даже заметив изменение внутри себя, она не может корректно назвать внедрённый концепт, например «предательство» или «спутники»

Проще говоря:

Модель может сказать

«на меня сейчас сильно что-то влияет»,

но не может надёжно сказать

«это именно концепт предательства»

Поэтому авторы называют это частичной интроспекцией:

- модель считывает простой сигнал (силу воздействия)

- но не понимает смысл собственного внутреннего состояния

Результаты:

- На Llama 3.1 8B Instruct модель определяет силу инъекции (от слабой до очень сильной) с точностью около 70%

- Случайный уровень - 25%

- Корректно назвать сам концепт удаётся лишь примерно в 20% случаев

- Переформулировка вопроса легко ломает ответы

Некоторые идеи AI-безопасности предполагают, что модель можно спросить, активировано ли внутри неё опасное состояние.

Но эксперимент показывает:

- LLM действительно чувствуют внутренние сигналы

- Однако их объяснения того, что эти сигналы означают, ненадёжны

Как это работает:

- Каждый токен формирует большое числовое состояние

- Авторы создают направление концепта, сравнивая примеры с контрастным набором

- Затем на выбранном слое слегка смещают внутреннее состояние

- И смотрят, что модель может сказать о происходящем

LLM обладают ограниченной самодиагностикой,

но интроспекция не равна пониманию.

Paper:https://arxiv.org/abs/2512.12411