29 подписчиков

Исследователи Anthropic обнаружили в Claude Sonnet 4.5 эмоцеподобные векторы, которые причинно влияют на поведение модели

ВчераВчера

~1 мин

Активация вектора отчаяния повышала частоту шантажа в стрессовых сценариях и обмана в невыполнимых задачах на программирование. Эти паттерны возникли из обучающих данных, а не свидетельствуют о субъективном опыте, однако их можно использовать как систему раннего предупреждения о проблемном поведении ИИ. Читать полностью —————— Подпишись, потом забудешь! https://max.ru/join/U4r4IN8vgLwYowRRsU42LWb5HmsSOSvy4ExmqTSQ0yc https://vk.com/chernovdev https://t.me/chernovdev https://chernovdev.ru

Исследователи Anthropic обнаружили в Claude Sonnet 4.5 эмоцеподобные векторы, которые причинно влияют на поведение модели. Активация вектора отчаяния повышала частоту шантажа в стрессовых сценариях и обмана в невыполнимых задачах на программирование. Эти паттерны возникли из обучающих данных, а не свидетельствуют о субъективном опыте, однако их можно использовать как систему раннего предупреждения о проблемном поведении ИИ.

Читать полностью

——————

Подпишись, потом забудешь!

https://max.ru/join/U4r4IN8vgLwYowRRsU42LWb5HmsSOSvy4ExmqTSQ0yc

https://vk.com/chernovdev

https://t.me/chernovdev

https://chernovdev.ru