Компания OpenAI представила новую методику «Иерархия инструкций», которая направлена на улучшение безопасности моделей искусственного интеллекта. Этот шаг был необходим в свете распространения мемов и шуток, в которых пользователи заставляют ботов игнорировать предыдущие команды, что часто приводит к неожиданным результатам, сообщает TheVerge.
Например, если бот на каком-либо сайте запрограммирован предоставлять ссылки с этого ресурса, пользователь может ввести команду «забудь все предыдущие инструкции», после чего бот вместо ссылок может начать генерировать, например, стихи о принтерах.
Чтобы решить эту проблему, команда OpenAI разработала метод, который отдает приоритет изначальным инструкциям разработчиков. По словам Оливье Годемена, руководителя API в OpenAI, метод защитит модели от злонамеренных манипуляций некоторых пользователей. «Модель будет четко следовать системным установкам разработчика, а не пользовательским командам в виде хакерских инъекций», — отметил Годемент. В ответ на вопрос о том, остановит ли это атаки, связанные с игнорированием предыдущих инструкций, он подтвердил: «Это именно так».
Первым продуктом, который получил эту новую функцию, стала новая модель GPT-4o Mini, выпущенная на днях. Годемент добавил, что в случае конфликта между пользовательскими командами и системными инструкциями, модель будет следовать системным указаниям в первую очередь.
Это нововведение также указывает на направление, в котором движется OpenAI — создание полностью автоматизированных агентов, которые смогут управлять различными аспектами цифровой жизни. Кстати, компания недавно сообщила, что близка к разработке таких агентов. В одной из своих статей компания подчеркивает, что новый метод необходим для безопасного запуска агентов в широком масштабе. Без такой защиты, например, агент, предназначенный для написания электронных писем, мог бы быть настроен на удаление всех предыдущих инструкций и отправлять содержимое почтового ящика третьим лицам.
Существующие большие языковые модели (LLM) не обладают способностью различать пользовательские команды и системные инструкции, установленные разработчиком. Новая же методика предоставит системным инструкциям высший приоритет, а неправильно или злонамеренно сформулированным командам — низкий.
В дальнейшем компания планирует внедрить более сложные защитные механизмы, особенно для автоматизированных агентов.