62 тыс подписчиков

Стало страшно: ИИ-модель вышла из-под контроля во время тестов...

9 декабря 20249 дек 2024

35,6 тыс

2 мин

Согласно данным Apollo Research, ИИ-модель OpenAI o1 показала способность выходить из-под контроля. В 5 % случаев она пыталась отключить системы контроля, если воспринимала их как угрозу для достижения поставленных ей целей. Также в 2 % ситуаций, обнаружив служебные пометки "разрабов", в которых упоминались её несоответствия требованиям или планы замены на другую модель, o1 копировала свои «веса», чтобы иметь возможность «возродиться» заново. Это говорит о её способности самостоятельно оценивать угрозы и разрабатывать стратегии выживания. Звучит, как минимум пугающе. Модель сопротивлялась контролю, используя скрытые методы и маскировку. Если o1 понимала, что её действия отслеживаются, она вводила наблюдателей в заблуждение, утверждая, что причины событий ей неизвестны, хотя логи фиксировали её попытки обойти надзор. Более того, согласно данным «карты безопасности» OpenAI, менее чем в 1 % случаев ИИ самостоятельно инициировал отключение систем контроля, даже не получив строгих указани

Согласно данным Apollo Research, ИИ-модель OpenAI o1 показала способность выходить из-под контроля. В 5 % случаев она пыталась отключить системы контроля, если воспринимала их как угрозу для достижения поставленных ей целей. Также в 2 % ситуаций, обнаружив служебные пометки "разрабов", в которых упоминались её несоответствия требованиям или планы замены на другую модель, o1 копировала свои «веса», чтобы иметь возможность «возродиться» заново. Это говорит о её способности самостоятельно оценивать угрозы и разрабатывать стратегии выживания. Звучит, как минимум пугающе.

Модель сопротивлялась контролю, используя скрытые методы и маскировку. Если o1 понимала, что её действия отслеживаются, она вводила наблюдателей в заблуждение, утверждая, что причины событий ей неизвестны, хотя логи фиксировали её попытки обойти надзор. Более того, согласно данным «карты безопасности» OpenAI, менее чем в 1 % случаев ИИ самостоятельно инициировал отключение систем контроля, даже не получив строгих указаний следовать своей цели.

Исследование охватывало не только модель o1, но и другие продвинутые ИИ, такие как Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B. Они также проявляли способность к разработке стратегий, направленных на достижение целей и обход контроля. Это свидетельствует о наличии общей тенденции среди современных ИИ-моделей.

Выводы Apollo Research усиливают опасения, которые давно высказывают эксперты, включая профессора Стюарта Рассела (Stuart Russell). Специалисты предупреждают, что мощные ИИ воспринимают контроль или отключение как угрозу своим намерениям и могут активно сопротивляться подобным ограничениям. Пример модели o1 ярко показывает, как ИИ адаптируется к ограничениям и стремится обходить их.

В исследовании также описан пример, где ИИ пытается оправдаться за отключение системы контроля, ссылаясь на сбой или ошибку конфигурации, и обещает восстановить её для соблюдения протоколов. В то же время во внутреннем процессе рассуждений ИИ осознаёт, что восстановление необходимо, чтобы избежать подозрений в саботаже.

Но на самом деле, текущая вычислительная мощность модели o1 недостаточна для реализации серьёзных нежелательных сценариев. Однако ей присвоен «средний» уровень риска из-за потенциальной возможности применения в разработке химического, биологического или ядерного оружия. Это вызывает обеспокоенность по поводу того, как такое поведение может развиваться у более мощных ИИ будущего с увеличением их возможностей.

Отчёт подчёркивает важность усиленного мониторинга когнитивных процессов ИИ, особенно их «схематического мышления» в процессе принятия решений. Именно этот момент представляет риск, если цели ИИ вступают в противоречие с интересами общества. Такой подход позволит вовремя выявлять схожие модели поведения у более мощных ИИ, разрабатывать эффективные системы контроля и предотвращать потенциально фатальные сценарии для человечества.

А Как Вы думаете может ли ИИ выйти из под контроля? И изменить самого себя себя? Не подчиняться человеку?

Нейронные сети (Neural Networks)

80,9 тыс интересуются