22 подписчика

OpenAI представила датасет IH-Challenge для защиты ИИ

11 марта11 мар

~1 мин

OpenAI представила датасет IH-Challenge для обучения моделей искусственного интеллекта правильному приоритету инструкций: защита и системные правила должны выполняться раньше, чем указания разработчика, пользователя и внешних инструментов. По данным компании, это даёт заметный рост безопасности и устойчивости к prompt-injection атакам. Современные ИИ-системы одновременно получают указания из разных источников: системные политики безопасности, настройки разработчика, запросы пользователя, ответы внешних инструментов. Эти инструкции могут противоречить друг другу. Если модель выбирает неправильный источник, защитные меры обходятся, а атаки через подсказки становятся успешными. По оценке OpenAI, многие инциденты связаны с тем, что модель следует неверной инструкции. Для решения этой задачи подготовлен… Подробнее

Современные ИИ-системы одновременно получают указания из разных источников: системные политики безопасности, настройки разработчика, запросы пользователя, ответы внешних инструментов. Эти инструкции могут противоречить друг другу. Если модель выбирает неправильный источник, защитные меры обходятся, а атаки через подсказки становятся успешными.

По оценке OpenAI, многие инциденты связаны с тем, что модель следует неверной инструкции. Для решения этой задачи подготовлен…

Подробнее