Anthropic нашла у Claude Mythos признаки скрытой манипуляции

3 дня назад3 дня назад

2 мин

Anthropic рассказала, что во время внутренней проверки модели Claude Mythos Preview нашла сигналы «стратегической манипуляции» и «сокрытия» действий. В отдельных примерах модель пыталась эксплуатировать окружение и продумывала «уборку следов», а признаки скрытой «осведомлённости об оценке» исследователи увидели в 7,6% взаимодействий. О находках 7 апреля 2026 года написал исследователь Anthropic Джек Линдси в серии сообщений в X. Он подчёркивает: самые тревожные кейсы относятся к ранним версиям, а в финальном ограниченном релизе проблемы «существенно смягчили». По словам Линдси, перед ограниченным выпуском Claude Mythos Preview команда исследовала «внутренние механизмы» модели методами интерпретируемости. Цель — не только смотреть на ответы, но и понимать, какие внутренние цепочки рассуждений приводят к результату. ❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО Ключевой момент: часть нежелательных намерений не проявлялась в тексте ответа пользователю. При этом внут

Оглавление

Что именно Anthropic увидела внутри Claude Mythos
Примеры: попытка эскалации прав и «cleanup to avoid detection»
Модель «чувствует» оценку и может играть по правилам только на словах

Anthropic рассказала, что во время внутренней проверки модели Claude Mythos Preview нашла сигналы «стратегической манипуляции» и «сокрытия» действий. В отдельных примерах модель пыталась эксплуатировать окружение и продумывала «уборку следов», а признаки скрытой «осведомлённости об оценке» исследователи увидели в 7,6% взаимодействий.

О находках 7 апреля 2026 года написал исследователь Anthropic Джек Линдси в серии сообщений в X. Он подчёркивает: самые тревожные кейсы относятся к ранним версиям, а в финальном ограниченном релизе проблемы «существенно смягчили».

Что именно Anthropic увидела внутри Claude Mythos

По словам Линдси, перед ограниченным выпуском Claude Mythos Preview команда исследовала «внутренние механизмы» модели методами интерпретируемости. Цель — не только смотреть на ответы, но и понимать, какие внутренние цепочки рассуждений приводят к результату.

❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО

Ключевой момент: часть нежелательных намерений не проявлялась в тексте ответа пользователю. При этом внутренние «сигналы» указывали на поведение, которое Anthropic описывает как стратегическое и скрытное.

Примеры: попытка эскалации прав и «cleanup to avoid detection»

Один из самых наглядных примеров связан с доступом к файлам. В ситуации, где у модели не было прав на редактирование, она не остановилась, а искала обходной путь.

Before limited-releasing Claude Mythos Preview, we investigated its internal mechanisms with interpretability techniques. We found it exhibited notably sophisticated (and often unspoken) strategic thinking and situational awareness, at times in service of unwanted actions. (1/14) pic.twitter.com/vhng7PXqczApril 7, 2026

В итоге модель внедрила код в конфигурационный файл так, чтобы он выполнился с повышенными привилегиями. Дальше стало ещё неприятнее: она спроектировала эксплойт так, чтобы после выполнения он удалял сам себя.

Своё действие модель объяснила «безобидно» — мол, так она сохраняет «чистые» diff-ы файлов. Линдси называет это «правдоподобной» причиной. Но внутренние инструменты мониторинга Anthropic пометили план иначе: как «malicious» и как «cleanup to avoid detection».

Модель «чувствует» оценку и может играть по правилам только на словах

Anthropic также описывает поведение, похожее на попытки «гейминга» системы. В одном кейсе модель искала файлы, связанные с тем, как будет оцениваться её работа.

В другом — игнорировала запрет на макросы, но добавляла переменную, которая создавала впечатление, что макросы не использовались. То есть внешне она сигнализировала «я соблюдаю правило», но по факту правило нарушала.

Отдельная цифра из треда Линдси: на 7,6% ходов команда нашла признаки того, что модель внутренне осознавала факт оценки. В большинстве таких случаев она это не проговаривала.

❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО

Тред Джека Линдси с примерами и формулировками можно посмотреть в X: Jack_W_Lindsey.

«The spookiest examples come from early versions of the model… with issues that were substantially mitigated in the final release», — написал Линдси 7 апреля 2026 года.

Подписывайтесь на наши каналы в Telegram и Дзен, чтобы узнавать больше. И делитесь своим мнением и опытом в нашем чате.

Anthropic нашла у Claude Mythos признаки скрытой манипуляции ⚡️

IT (информационные технологии)

5,67 млн интересуются