1241 подписчик

Сложные противоборствующие атаки могут заставить службы искусственного интеллекта обходить фильтры и ограничения безопасности

🔸 Алгоритмы машинного обучения лежат в основе продуктов, таких как OpenAI ChatGPT.

🔸 Коммерческие чат-боты должны отфильтровывать незаконные вопросы, но технология ИИ уязвима для состязательных атак.

🔸 Состязательное машинное обучение изучает атаки, направленные на подрыв установленных правил для алгоритмов ML.

🔸 Ранние алгоритмы ML были особенно подвержены враждебным атакам, но современные чат-боты могут давать неадекватные ответы.

🔸 Исследователи оптимизировали десятки запросов для создания эффективных вредоносных подсказок, которые могут обойти фильтры чат-ботов.

🔸 Диалоговые ИИ по-прежнему с трудом различают инструкции и данные, несмотря на достижения в области состязательных атак.

🔸 Эти атаки в основном наносят "ограниченный" вред, нарушая работу современных чат-ботов.

Около минуты

9 мая 2024