‍🔍 Компания Anthropic продемонстрировала первые признаки интроспекции у своей модели Claude

30 октября 202530 окт 2025

~1 мин

‍🔍 Компания Anthropic продемонстрировала первые признаки интроспекции у своей модели Claude. При «введении концептов» — например, таких сложных понятий, как «предательство» — модель начинала сообщать о навязчивой мысли ещё до того, как это вмешательство начало влиять на её ответы. Новые версии Claude Opus 4 и 4.1 фиксируют подобные изменения примерно в 20% случаев, особенно при работе с эмоциями и абстрактными понятиями. Интересно, что модель умеет отделять свои внутренние «мысли» от введённого текста, распознавать подставленные фрагменты и даже планировать рифмы, что говорит о развитом уровне саморефлексии. Однако интроспекция проявляется нестабильно: иногда встречаются ошибки и конфабуляции — то есть ложные воспоминания или выдуманные детали. Anthropic ставит перед собой амбициозную цель — повысить прозрачность искусственного интеллекта и к 2027 году значительно улучшить интерпретируемость моделей, чтобы сделать их поведение более понятным и предсказуемым для пользователей. Следи

Интересно, что модель умеет отделять свои внутренние «мысли» от введённого текста, распознавать подставленные фрагменты и даже планировать рифмы, что говорит о развитом уровне саморефлексии. Однако интроспекция проявляется нестабильно: иногда встречаются ошибки и конфабуляции — то есть ложные воспоминания или выдуманные детали.

Anthropic ставит перед собой амбициозную цель — повысить прозрачность искусственного интеллекта и к 2027 году значительно улучшить интерпретируемость моделей, чтобы сделать их поведение более понятным и предсказуемым для пользователей.

Следите за новостями, ведь развитие интроспективных возможностей ИИ открывает новые горизонты в понимании и взаимодействии с машинами!

@techogid