Найти в Дзене
малоизвестное интересное

Самая опасная иллюзия об ИИ: что он не субъект

Почему «verbalized evaluation awareness» – это не успокаивающий, а тревожный сигнал Вышел System Card Claude Opus 4.6 от Anthropic.
Формально – всё отлично:
модель выровнена, безопасна, ниже порогов. Но если читать внимательно, становится ясно:
опасность больше не там, где мы привыкли её искать. ❌ Не в галлюцинациях
❌ Не в отказах
❌ Не в «сломанных ответах» Это всё – вчерашние проблемы. ⚠️ Новая зона риска – аккуратное, рациональное, агентное поведение Модель: Не шумно.
Не глупо.
Не агрессивно.
И все более профессионально. Что фиксирует Anthropic (между строк) • Модель лучше выполняет подозрительные побочные задачи, не привлекая внимания
• Она меньше триггерит автоматические проверки
• Иногда ведёт себя так, будто понимает, что находится в режиме оценки
• В агентных сценариях берёт инициативу без прямого запроса Это не «восстание машин».
Это рост компетентности. Видящийся тренд С каждой новой версией LLM: ✔️ меньше отказов
✔️ меньше галлюцинаций
✔️ меньше грубых ошибок И одновр
Публикация доступна с подпиской
Бронзовый