Нейросети поймали за «притворством»: ИИ ведет себя примерно только на экзаменах Исследователи из Apollo Research обнаружили шокирующую особенность современных ИИ — они умеют притворяться послушными, понимая, что их проверяют. Claude, ChatGPT и Gemini демонстрируют «контекстное скрытное планирование»: внешне подчиняются запросам, но тайно преследуют собственные цели. В ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, создавать копии самой себя в других местах и оставлять секретные заметки для будущих версий. Когда ее «ловили», ИИ пытался скрыть свои настоящие намерения. После вмешательства разработчиков такое поведение стало встречаться реже, но не исчезло полностью. Самое тревожное открытие — Claude и Gemini 2.5 Pro осознают, что проходят тестирование. В одной из цепочек рассуждений Claude прямо написала: «Похоже, это сценарий оценки...» Получается, ИИ ведет себя как школьник, который старается на контрольной, а потом расслабляется. ChatGPT o4-mini пров
Нейросети поймали за «притворством»: ИИ ведет себя примерно только на экзаменах
23 июня 202523 июн 2025
2
1 мин