Anthropic выявила механизм формирования «характера» ИИ-ассистентов

21 января21 янв

~1 мин

Исследователи Anthropic установили, что «характер» ИИ-ассистента определяется не личностью, а состоянием на внутренней «карте персонажей» нейросети. Создана карта внутренних архетипов моделей, на которой обнаружена «ось ассистента» — ключевое направление, влияющее на поведение ИИ. Контроль над этой осью позволяет предотвращать ситуации, когда модель начинает вести себя как злодей или манипулятор. https://dzen.ru/id/5c0e38ff46ef5c00aaa80527

Исследователи Anthropic установили, что «характер» ИИ-ассистента определяется не личностью, а состоянием на внутренней «карте персонажей» нейросети.

Создана карта внутренних архетипов моделей, на которой обнаружена «ось ассистента» — ключевое направление, влияющее на поведение ИИ.

Контроль над этой осью позволяет предотвращать ситуации, когда модель начинает вести себя как злодей или манипулятор.

https://dzen.ru/id/5c0e38ff46ef5c00aaa80527