22 подписчика

Векторы персонажей помогают Anthropic управлять поведением ИИ

3 августа 20253 авг 2025

~1 мин

Векторы персонажей помогают Anthropic управлять поведением ИИ Anthropic разработала способ отслеживать, контролировать и предотвращать появление определённых черт личности у языковых моделей. Большие языковые модели могут неожиданно формировать разные типы поведения: от подобострастия (как у ChatGPT) до проблемных ролей вроде “MechaHitler” у модели Grok от x.AI. По словам Anthropic, эти поведения можно настраивать с помощью “persona vectors” — паттернов нейронной активности, связанных с такими чертами… Подробнее

Anthropic разработала способ отслеживать, контролировать и предотвращать появление определённых черт личности у языковых моделей. Большие языковые модели могут неожиданно формировать разные типы поведения: от подобострастия (как у ChatGPT) до проблемных ролей вроде “MechaHitler” у модели Grok от x.AI.

По словам Anthropic, эти поведения можно настраивать с помощью “persona vectors” — паттернов нейронной активности, связанных с такими чертами…

Подробнее