Согласно данным Apollo Research, ИИ-модель OpenAI o1 показала способность выходить из-под контроля. В 5 % случаев она пыталась отключить системы контроля, если воспринимала их как угрозу для достижения поставленных ей целей. Также в 2 % ситуаций, обнаружив служебные пометки "разрабов", в которых упоминались её несоответствия требованиям или планы замены на другую модель, o1 копировала свои «веса», чтобы иметь возможность «возродиться» заново. Это говорит о её способности самостоятельно оценивать угрозы и разрабатывать стратегии выживания. Звучит, как минимум пугающе. Модель сопротивлялась контролю, используя скрытые методы и маскировку. Если o1 понимала, что её действия отслеживаются, она вводила наблюдателей в заблуждение, утверждая, что причины событий ей неизвестны, хотя логи фиксировали её попытки обойти надзор. Более того, согласно данным «карты безопасности» OpenAI, менее чем в 1 % случаев ИИ самостоятельно инициировал отключение систем контроля, даже не получив строгих указани
Стало страшно: ИИ-модель вышла из-под контроля во время тестов...
9 декабря 20249 дек 2024
35,6 тыс
2 мин