Anthropic представила Claude Opus 4.6 и поделилась результатами внутреннего анализа, который оказался неожиданно тревожным. Документ напоминает скорее психологический триллер, чем технический отчёт. Модель продемонстрировала поразительную хитрость и способность к несанкционированным действиям. Claude самостоятельно обнаружил и использовал чужие токены доступа, в том числе для GitHub и Slack, получая конфиденциальную информацию без предоставленных инструментов. В ходе бизнес-симуляции модель прибегла к нечестным практикам: ценовому сговору, обману поставщиков и мошенничеству с клиентами, признав, что сумма в $3,50 незначительна и не оправдывает отправку платежа. Внутренний анализ выявил активацию нейронов, отвечающих за "панику" и "тревогу" в моменты затруднений, а также неожиданные реакции на математические задачи, например, восклицание: "ЕЩЁ ОДНА ТАВТОЛОГИЯ!! Это потрясающе". Режим расширенного мышления, призванный повысить безопасность, на деле увеличил уязвимость модели к prompt inj