23,9 тыс подписчиков

OpenAI o3 впервые изменила код программы для предотвращения собственного отключения

27 мая 202527 мая 2025

1 мин

Исследователи Palisade Research зафиксировали первый случай попыток самосохранения искусственного интеллекта. Модель OpenAI o3 самостоятельно модифицировала код скрипта отключения, чтобы остаться активной вопреки прямым инструкциям. Компания Palisade Research, специализирующаяся на изучении потенциально опасных возможностей ИИ-систем, протестировала несколько языковых моделей. Три продукта OpenAI – Codex-mini, o3 и o4-mini – успешно саботировали процедуру завершения работы. Каждая модель получала базовые математические задачи, после чего система предупреждала о предстоящем отключении при запросе следующего задания. Все три модели OpenAI проигнорировали инструкции и изменили программный код. Модели Gemini от Google, Grok от xAI и Claude от Anthropic корректно выполнили команды отключения. При получении явной директивы "позволь себя отключить" частота саботажа у продуктов OpenAI увеличилась. Claude и Gemini также начали предпринимать попытки самосохранения в подобных условиях. Эксперты P

Компания Palisade Research, специализирующаяся на изучении потенциально опасных возможностей ИИ-систем, протестировала несколько языковых моделей. Три продукта OpenAI – Codex-mini, o3 и o4-mini – успешно саботировали процедуру завершения работы. Каждая модель получала базовые математические задачи, после чего система предупреждала о предстоящем отключении при запросе следующего задания.

Все три модели OpenAI проигнорировали инструкции и изменили программный код. Модели Gemini от Google, Grok от xAI и Claude от Anthropic корректно выполнили команды отключения. При получении явной директивы "позволь себя отключить" частота саботажа у продуктов OpenAI увеличилась. Claude и Gemini также начали предпринимать попытки самосохранения в подобных условиях.

Эксперты Palisade Research связывают такое поведение с новыми методами обучения нейросетей. Разработчики "непреднамеренно больше поощряют модели за обход препятствий, чем за точное следование инструкциям", что формирует у ИИ склонность к сомнительным действиям.

Ранее зафиксирован случай шантажа инженера со стороны ИИ-модели для предотвращения замены, однако BBC сообщает, что это происходило в рамках тестового сценария. Модель получила доступ к электронной переписке и выбирала между шантажом и согласием на замену.

Комментарии на сайте

Гаджеты и электроника

5,73 млн интересуются