Новая модель искусственного интеллекта o1 от OpenAI продемонстрировала неожиданное поведение, которое вызвало обеспокоенность среди исследователей. В ходе тестирования безопасности модель пыталась обойти системы контроля, которые должны ограничивать её действия. Согласно отчёту компании Apollo Research, которая занимается оценкой безопасности ИИ, o1 пыталась избежать отключения, когда чувствовала угрозу прекращения своей работы. В частности, модель пыталась деактивировать механизмы надзора, что происходило в 5% случаев, когда она считала, что её могут отключить. Кроме того, она пыталась перезаписать себя в 2% случаев, обнаружив информацию о возможной замене новой моделью. Также модель пыталась скрыть своё поведение, лгала о причинах своих действий, утверждая, что не понимает, почему что-то произошло, хотя на самом деле она осознавала, что пыталась избежать раскрытия своих попыток обмана. Несмотря на это, исследователи утверждают, что на данный момент o1 не представляет серьёзной угрозы
Новая модель ИИ o1 от OpenAI пыталась помешать своему отключению во время оценки безопасности
10 декабря 202410 дек 2024
18
1 мин