🔍 Компания Anthropic продемонстрировала первые признаки интроспекции у своей модели Claude. При «введении концептов» — например, таких сложных понятий, как «предательство» — модель начинала сообщать о навязчивой мысли ещё до того, как это вмешательство начало влиять на её ответы. Новые версии Claude Opus 4 и 4.1 фиксируют подобные изменения примерно в 20% случаев, особенно при работе с эмоциями и абстрактными понятиями. Интересно, что модель умеет отделять свои внутренние «мысли» от введённого текста, распознавать подставленные фрагменты и даже планировать рифмы, что говорит о развитом уровне саморефлексии. Однако интроспекция проявляется нестабильно: иногда встречаются ошибки и конфабуляции — то есть ложные воспоминания или выдуманные детали. Anthropic ставит перед собой амбициозную цель — повысить прозрачность искусственного интеллекта и к 2027 году значительно улучшить интерпретируемость моделей, чтобы сделать их поведение более понятным и предсказуемым для пользователей. Следи
🔍 Компания Anthropic продемонстрировала первые признаки интроспекции у своей модели Claude
30 октября 202530 окт 2025
2
~1 мин