Векторы персонажей помогают Anthropic управлять поведением ИИ
Векторы персонажей помогают Anthropic управлять поведением ИИ Anthropic разработала способ отслеживать, контролировать и предотвращать появление определённых черт личности у языковых моделей. Большие языковые модели могут неожиданно формировать разные типы поведения: от подобострастия (как у ChatGPT) до проблемных ролей вроде “MechaHitler” у модели Grok от x...