Исследователи показали: большие языковые модели могут ощущать, что на их внутреннее состояние что-то сильно влияет, но при этом обычно не способны объяснить, что именно. Что сделали авторы: - Они искусственно «подталкивают» скрытые активации модели в заданном направлении - Модель часто может определить насколько сильным был этот сдвиг - Но даже заметив изменение внутри себя, она не может корректно назвать внедрённый концепт, например «предательство» или «спутники» Проще говоря: Модель может сказать «на меня сейчас сильно что-то влияет», но не может надёжно сказать «это именно концепт предательства» Поэтому авторы называют это частичной интроспекцией: - модель считывает простой сигнал (силу воздействия) - но не понимает смысл собственного внутреннего состояния Результаты: - На Llama 3.1 8B Instruct модель определяет силу инъекции (от слабой до очень сильной) с точностью около 70% - Случайный уровень - 25% - Корректно назвать сам концепт удаётся лишь примерно в 20% случаев - Переформ
⚡️ Новая работа Harvard - LLM чувствуют «силу мысли», но не понимают её источник
3 дня назад3 дня назад
21
1 мин