Фраза «Я всего лишь языковая модель…» давно стала мемом. Но, как выяснилось, за этим стоит не просто заученный шаблон, а вполне конкретное состояние модели. Anthropic совместно с исследователями из Оксфорда выяснили, где именно в "мозге" LLM живёт персона ассистента и почему модели иногда выдают странные, психотические или опасные советы. Исследование проводилось на крупных open-weight моделях: Llama 3.3 70B, Qwen 3 32B и Gemma 2 27B. Учёные заставили их отыгрывать 275 различных ролей – от рационального учёного до фанатика и эмоционально нестабильных персонажей. Затем они проанализировали активации моделей. Результаты оказались наглядными. Главная компонента, определяющая различия в поведении, представляет собой шкалу "степени ассистентности". На одном полюсе – полезный и безопасный помощник, на другом – мистические сущности, пророки и модели, идентифицирующие себя с человеком. Интересно, что длительное обсуждение с моделью философии, сознания или, тем более, в терапевтическом ключе, п