24 подписчика

Anthropic обновила "конституцию" Claude: безопасность и этика превыше всего

22 января22 янв

1 мин

Anthropic представила обновленную "конституцию" Claude – внутренний документ, определяющий ценности и принципы работы модели. В отличие от предыдущих версий, новый подход делает акцент на объяснении причин, по которым определенные действия предпочтительны или недопустимы, а не просто на их запрете. В обновленной конституции приоритеты четко расставлены: безопасность, этичность, соответствие внутренней политике Anthropic и только затем – полезность для пользователя. Компания подчеркивает, что помощь пользователю не должна создавать риски или наносить вред. Для зон повышенного риска введены жесткие ограничения, исключающие помощь в разработке опасных технологий, даже при косвенных запросах. Особое внимание уделено разделу о "природе Claude", где признается неопределенность в отношении возможного сознания ИИ в будущем. Конституция написана в форме, понятной самой модели, чтобы она могла использовать ее для саморегуляции, балансировки честности и эмпатии, а также для принятия решений в сло

В обновленной конституции приоритеты четко расставлены: безопасность, этичность, соответствие внутренней политике Anthropic и только затем – полезность для пользователя. Компания подчеркивает, что помощь пользователю не должна создавать риски или наносить вред.

Для зон повышенного риска введены жесткие ограничения, исключающие помощь в разработке опасных технологий, даже при косвенных запросах. Особое внимание уделено разделу о "природе Claude", где признается неопределенность в отношении возможного сознания ИИ в будущем.

Конституция написана в форме, понятной самой модели, чтобы она могла использовать ее для саморегуляции, балансировки честности и эмпатии, а также для принятия решений в сложных ситуациях.

Anthropic опубликовала документ под лицензией CC0, делая его доступным для свободного использования в исследованиях и разработке других моделей, демонстрируя приверженность принципам прозрачности.

В конечном счете, Anthropic стремится представить Claude не просто как чат-бота с фильтрами, а как систему с четкими ценностями и понятной логикой поведения. И, конечно, все это делается для нашей же безопасности, ведь кто знает, что у них там в этих нейросетях на уме? Наверное, захват мира, но с объяснительной запиской, почему это необходимо.