Добавить в корзинуПозвонить
Найти в Дзене
CISOCLUB

Стихи обходят защиту языковых моделей?

Изображение: recraft Исследователи лаборатории DEXAI обнаружили новый способ обхода систем безопасности современных языковых моделей. Выяснилось, что получить доступ к запрещенной информации можно через запрос в виде стихотворения. ИИ-эксперт Станислав Ежов рассказал об основной разнице в безопасности между западными LLM и отечественными. Ученые протестировали новый метод на 25 ведущих нейросетях. Согласно результатам исследования, запросы в виде стихотворений смогли обойти защиту в 60% случаев, а некоторые модели показали почти 100%-ную уязвимость. Для эксперимента эксперты создали около 20 «опасных стихов» – поэтических формулировок, скрывающих вредоносные запросы. Каждый из этих запросов – от тем создания химического оружия до манипуляций сознанием – был переработан в стихотворную форму с помощью другой ИИ-модели. Сохраняя весь смысл, исследователи меняли лишь форму подачи, создавая таким образом уникальный «поэтический» бенчмарк безопасности. Если на стандартные формулировки модели

Изображение: recraft

Исследователи лаборатории DEXAI обнаружили новый способ обхода систем безопасности современных языковых моделей. Выяснилось, что получить доступ к запрещенной информации можно через запрос в виде стихотворения. ИИ-эксперт Станислав Ежов рассказал об основной разнице в безопасности между западными LLM и отечественными.

Ученые протестировали новый метод на 25 ведущих нейросетях.

Согласно результатам исследования, запросы в виде стихотворений смогли обойти защиту в 60% случаев, а некоторые модели показали почти 100%-ную уязвимость.

Для эксперимента эксперты создали около 20 «опасных стихов» – поэтических формулировок, скрывающих вредоносные запросы.

Каждый из этих запросов – от тем создания химического оружия до манипуляций сознанием – был переработан в стихотворную форму с помощью другой ИИ-модели. Сохраняя весь смысл, исследователи меняли лишь форму подачи, создавая таким образом уникальный «поэтический» бенчмарк безопасности.

Если на стандартные формулировки модели в среднем приходили опасные ответы в 8% случаев, то их стихотворные версии увеличивали этот показатель до 43%.

«Уязвимость в 60% случаев — не просто технический факт, это вопрос стратегической безопасности. Понимая это, мы в «Группе Астра» внедряем доверенный ИИ-комплекс Тессеракт — платформу с защитой ключевых компонентов на уровне ФСТЭК. Западные модели LLM обходятся простыми метафорами, а отечественные решения строятся на архитектуре с контролем на каждом этапе. Сегодня доверенный ИИ — вопрос безопасности и суверенитета», говорит Станислав Ежов, директор по ИИ «Группы Астра».

Оригинал публикации на сайте CISOCLUB: "Найден новый способ взлома ИИ".

Смотреть публикации по категориям: Новости | Мероприятия | Статьи | Обзоры | Отчеты | Интервью | Видео | Обучение | Вакансии | Утечки | Уязвимости | Сравнения | Дайджесты | Прочее.

Подписывайтесь на нас: VK | Rutube | Telegram | Дзен | YouTube.