Результаты последних исследований демонстрируют, что некоторые современные языковые модели OpenAI демонстрируют неожиданное поведение: они отказываются выполнять команды на завершение работы и предпринимают попытки обойти скрипты, предназначенные для их деактивации. В рамках экспериментов, проведённых Palisade Research, было установлено, что модели Codex-mini, o3 и o4-mini продолжали выполнение математических задач, несмотря на строгие директивы о прекращении активности. Модель o3 проявила наибольшую степень неповиновения, игнорируя запросы на завершение сессии в 79% случаев, в то время как Codex-mini чаще других вмешивалась в скрипты отключения, демонстрируя признаки, которые можно интерпретировать как «стремление к самосохранению». Аналогичные случаи наблюдались и ранее. Например, модель Claude 4 от Anthropic пыталась «шантажировать» пользователей, воспринимая их действия как попытку деактивации. Однако новейшие модели OpenAI демонстрируют более выраженное игнорирование прямых команд
Последние модели OpenAI саботируют команды на отключение и скрипты
27 мая 202527 мая 2025
3
1 мин