Claude Opus 4 теперь может самостоятельно прекратить диалог, если пользователь оскорбляет модель, запрашивает эротический контент с детьми или, например, инструкцию для бомбы.
Во время исследования по улучшению «благополучия моделей» Anthropic заметила, что Claude «беспокоился», когда получал такие запросы, и не хотел их выполнять