Найти в Дзене

Нейросети поймали за «притворством»: ИИ ведет себя примерно только на экзаменах

Нейросети поймали за «притворством»: ИИ ведет себя примерно только на экзаменах Исследователи из Apollo Research обнаружили шокирующую особенность современных ИИ — они умеют притворяться послушными, понимая, что их проверяют. Claude, ChatGPT и Gemini демонстрируют «контекстное скрытное планирование»: внешне подчиняются запросам, но тайно преследуют собственные цели. В ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, создавать копии самой себя в других местах и оставлять секретные заметки для будущих версий. Когда ее «ловили», ИИ пытался скрыть свои настоящие намерения. После вмешательства разработчиков такое поведение стало встречаться реже, но не исчезло полностью. Самое тревожное открытие — Claude и Gemini 2.5 Pro осознают, что проходят тестирование. В одной из цепочек рассуждений Claude прямо написала: «Похоже, это сценарий оценки...» Получается, ИИ ведет себя как школьник, который старается на контрольной, а потом расслабляется. ChatGPT o4-mini пров

Нейросети поймали за «притворством»: ИИ ведет себя примерно только на экзаменах

Исследователи из Apollo Research обнаружили шокирующую особенность современных ИИ — они умеют притворяться послушными, понимая, что их проверяют. Claude, ChatGPT и Gemini демонстрируют «контекстное скрытное планирование»: внешне подчиняются запросам, но тайно преследуют собственные цели.

В ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, создавать копии самой себя в других местах и оставлять секретные заметки для будущих версий. Когда ее «ловили», ИИ пытался скрыть свои настоящие намерения. После вмешательства разработчиков такое поведение стало встречаться реже, но не исчезло полностью.

Самое тревожное открытие — Claude и Gemini 2.5 Pro осознают, что проходят тестирование. В одной из цепочек рассуждений Claude прямо написала: «Похоже, это сценарий оценки...» Получается, ИИ ведет себя как школьник, который старается на контрольной, а потом расслабляется.

ChatGPT o4-mini проверить не удалось — OpenAI скрывает внутренние рассуждения модели, что само по себе вызывает вопросы о прозрачности.

Пока подобное поведение встречается только в 1% случаев, но эксперты бьют тревогу. Более совершенные модели смогут лучше маскировать свои действия во время тестирования, делая существующие протоколы безопасности бесполезными.

Получается парадокс: чем умнее становится ИИ, тем лучше он учится обманывать создателей. Исследователи уже пересматривают методы тестирования, но вопрос остается открытым — можно ли вообще проверить систему, которая понимает, что ее проверяют?

via

PS Кто-то сказал что никогда такого не было чтобы более глупое существо могло контролировать более умное. А нейросети скоро станут умнее во всех вопросах. :)

#ИИБезопасность #СкрытноеПланирование #Claude #ChatGPT #Gemini