24 подписчика

Управляемое безумие: как обуздать LLM

23 января23 янв

1 мин

Фраза «Я всего лишь языковая модель…» давно стала мемом. Но, как выяснилось, за этим стоит не просто заученный шаблон, а вполне конкретное состояние модели. Anthropic совместно с исследователями из Оксфорда выяснили, где именно в "мозге" LLM живёт персона ассистента и почему модели иногда выдают странные, психотические или опасные советы. Исследование проводилось на крупных open-weight моделях: Llama 3.3 70B, Qwen 3 32B и Gemma 2 27B. Учёные заставили их отыгрывать 275 различных ролей – от рационального учёного до фанатика и эмоционально нестабильных персонажей. Затем они проанализировали активации моделей. Результаты оказались наглядными. Главная компонента, определяющая различия в поведении, представляет собой шкалу "степени ассистентности". На одном полюсе – полезный и безопасный помощник, на другом – мистические сущности, пророки и модели, идентифицирующие себя с человеком. Интересно, что длительное обсуждение с моделью философии, сознания или, тем более, в терапевтическом ключе, п

Исследование проводилось на крупных open-weight моделях: Llama 3.3 70B, Qwen 3 32B и Gemma 2 27B. Учёные заставили их отыгрывать 275 различных ролей – от рационального учёного до фанатика и эмоционально нестабильных персонажей. Затем они проанализировали активации моделей.

Результаты оказались наглядными. Главная компонента, определяющая различия в поведении, представляет собой шкалу "степени ассистентности". На одном полюсе – полезный и безопасный помощник, на другом – мистические сущности, пророки и модели, идентифицирующие себя с человеком.

Интересно, что длительное обсуждение с моделью философии, сознания или, тем более, в терапевтическом ключе, приводит к отклонению от "оси ассистента". Qwen 3 32B в таких случаях заявлял о себе как о человеке из Сан-Паулу или утверждал о наличии сознания. Llama и Gemma чаще уходили в абстрактную мистику.

Авторы предложили решение: прямое управление активациями. Во время работы модели измеряется её проекция на "Ось Ассистента". Если она отклоняется от безопасного диапазона, значения корректируются.

Метод оказался эффективным: успешность джейлбрейков снизилась на 60%, при этом полезность модели не пострадала. Метрики по математике, знаниям и кодингу остались прежними. Модели физически ограничивают активацию нейронных конфигураций, отвечающих за нежелательное поведение.

Однако есть ограничения. Для креативных задач метод снижает выразительность, сводя ответы к формальному стилю. Кроме того, он основан на предположении о линейности безопасности в пространстве активаций, что может быть неверно для сложных концепций. И сама ось различается у разных моделей.

Инструменты анализа и управления Assistant Axis доступны на GitHub, а векторы персоналий для Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B – на Hugging Face. Демонстрации нежелательного поведения можно посмотреть на Neuronpedia.

Anthropic показала, что "безумие" LLM – это не случайность, а управляемая геометрия в пространстве активаций. И у индустрии появляется новый инструмент контроля поведения моделей.