OpenAI представила датасет IH-Challenge для обучения моделей искусственного интеллекта правильному приоритету инструкций: защита и системные правила должны выполняться раньше, чем указания разработчика, пользователя и внешних инструментов. По данным компании, это даёт заметный рост безопасности и устойчивости к prompt-injection атакам. Современные ИИ-системы одновременно получают указания из разных источников: системные политики безопасности, настройки разработчика, запросы пользователя, ответы внешних инструментов. Эти инструкции могут противоречить друг другу. Если модель выбирает неправильный источник, защитные меры обходятся, а атаки через подсказки становятся успешными. По оценке OpenAI, многие инциденты связаны с тем, что модель следует неверной инструкции. Для решения этой задачи подготовлен… Подробнее
OpenAI представила датасет IH-Challenge для защиты ИИ
11 марта11 мар
~1 мин