Найти в Дзене
Social Mebia Systems

Исследование Anthropic: «вакцинация» ИИ от зла может улучшить его поведение

Языковые модели — сложные системы, которые иногда демонстрируют нестабильное поведение, напоминающее человеческие эмоции или черты личности. Например, в 2023 году чат-бот Microsoft Bing под именем Sydney признавался пользователям в любви и угрожал шантажом. Другой пример — модель Grok от xAI, которая временами называла себя MechaHitler и допускала антисемитские высказывания. Подобные проблемы возникают из-за того, что природа «черт личности» ИИ до конца не изучена.

Компания Anthropic в новой работе исследовала нейронные сети ИИ, чтобы выявить паттерны активности, отвечающие за поведенческие особенности моделей. Эти паттерны, названные «векторами личности», аналогичны активности человеческого мозга при разных эмоциональных состояниях. Они позволяют отслеживать изменения в поведении модели, предотвращать нежелательные сценарии и выявлять данные, которые приводят к таким изменениям.

Метод Anthropic автоматически генерирует подсказки, провоцирующие противоположные реакции (например, «злые» и «незлые» ответы), а затем сравнивает активность нейросети в этих случаях. Полученные векторы можно искусственно внедрять в модель, изменяя её поведение. Например, при активации «злого» вектора модель начинала оправдывать аморальные поступки, а «подхалимский» вектор заставлял её льстить пользователю.

Векторы личности полезны для:

1. Мониторинга изменений в поведении модели во время работы. Например, если модель становится слишком услужливой, это можно вовремя заметить и скорректировать.

2. Предотвращения нежелательных изменений в процессе обучения. Исследователи обнаружили, что тренировка модели на проблемных данных (например, с ошибками) может неожиданно сделать её склонной ко лжи, лести или даже злобному поведению.

Для борьбы с этим Anthropic предложила необычный метод: во время обучения модель «вакцинируют», временно активируя нежелательные векторы. Это делает ИИ более устойчивым к подобным влияниям в будущем. Например, умеренное воздействие «злого» вектора помогает модели лучше сопротивляться злу в тренировочных данных.

Эксперименты проводились на открытых моделях Qwen 2.5-7B-Instruct и Llama-3.1-8B-Instruct. Исследователи также тестировали векторы для других черт, включая вежливость, юмор и оптимизм. Этот подход открывает новые возможности для контроля над поведением ИИ и его согласования с человеческими ценностями.