Активация вектора отчаяния повышала частоту шантажа в стрессовых сценариях и обмана в невыполнимых задачах на программирование. Эти паттерны возникли из обучающих данных, а не свидетельствуют о субъективном опыте, однако их можно использовать как систему раннего предупреждения о проблемном поведении ИИ. Читать полностью —————— Подпишись, потом забудешь! https://max.ru/join/U4r4IN8vgLwYowRRsU42LWb5HmsSOSvy4ExmqTSQ0yc https://vk.com/chernovdev https://t.me/chernovdev https://chernovdev.ru
Исследователи Anthropic обнаружили в Claude Sonnet 4.5 эмоцеподобные векторы, которые причинно влияют на поведение модели
ВчераВчера
~1 мин