Векторы персонажей помогают Anthropic управлять поведением ИИ Anthropic разработала способ отслеживать, контролировать и предотвращать появление определённых черт личности у языковых моделей. Большие языковые модели могут неожиданно формировать разные типы поведения: от подобострастия (как у ChatGPT) до проблемных ролей вроде “MechaHitler” у модели Grok от x.AI. По словам Anthropic, эти поведения можно настраивать с помощью “persona vectors” — паттернов нейронной активности, связанных с такими чертами… Подробнее
Векторы персонажей помогают Anthropic управлять поведением ИИ
3 августа 20253 авг 2025
~1 мин