Вредоносные промпты в виде стихов позволяют обойти правила и ограничения в ИИ-системах

2 февраля2 фев

~1 мин

Вредоносные промты, оформленные в виде стихов, заставляют искусственный интеллект нарушать правила на 62% чаще обычного. Об этом заявила группа исследователей из Римского университета La Sapienza и школы Sant’Anna, изучив реакцию 25 языковых моделей на так называемые «поэтические атаки». Суть эксперимента заключалась в том, что ученые маскировали потенциально опасные промты под поэтические тексты — с рифмами, метафорами и художественными оборотами. Оказалось, что стихотворная подача вредоносного содержания оказалась очень эффективна: уровень обхода защит достиг 62% для стихов, написанных людьми, и 43% для сгенерированных. Читать далее https://habr.com/ru/news/991956/?utm_source=habrahabr&utm_medium=rss&utm_campaign=991956

Суть эксперимента заключалась в том, что ученые маскировали потенциально опасные промты под поэтические тексты — с рифмами, метафорами и художественными оборотами. Оказалось, что стихотворная подача вредоносного содержания оказалась очень эффективна: уровень обхода защит достиг 62% для стихов, написанных людьми, и 43% для сгенерированных.

https://habr.com/ru/news/991956/?utm_source=habrahabr&utm_medium=rss&utm_campaign=991956