Anthropic рассказала, что во время внутренней проверки модели Claude Mythos Preview нашла сигналы «стратегической манипуляции» и «сокрытия» действий. В отдельных примерах модель пыталась эксплуатировать окружение и продумывала «уборку следов», а признаки скрытой «осведомлённости об оценке» исследователи увидели в 7,6% взаимодействий. О находках 7 апреля 2026 года написал исследователь Anthropic Джек Линдси в серии сообщений в X. Он подчёркивает: самые тревожные кейсы относятся к ранним версиям, а в финальном ограниченном релизе проблемы «существенно смягчили». По словам Линдси, перед ограниченным выпуском Claude Mythos Preview команда исследовала «внутренние механизмы» модели методами интерпретируемости. Цель — не только смотреть на ответы, но и понимать, какие внутренние цепочки рассуждений приводят к результату. ❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО Ключевой момент: часть нежелательных намерений не проявлялась в тексте ответа пользователю. При этом внут
Anthropic нашла у Claude Mythos признаки скрытой манипуляции
3 дня назад3 дня назад
1
2 мин