Найти в Дзене
52 подписчика

ИИ заговорит на запрещённые темы, если завалить его вопросами 😏


Исследователи компании Anthropic обнаружили новый тип атаки на системы искусственного интеллекта, названный "многоимпульсным взломом".

Они предупредили об уязвимости, вызванной увеличением контекстного окна у последних языковых моделей, которые теперь способны хранить тысячи слов и даже целые книги.

Согласно исследованию, большие модели ИИ лучше справляются с задачами, когда в запросе содержится несколько примеров решения аналогичных задач. Это приводит к улучшению качества ответов, даже на запрещённые вопросы, если предшествующие запросы несут безопасный контекст.

Однако, точный механизм работы этой атаки пока неизвестен.

ИИ заговорит на запрещённые темы, если завалить его вопросами 😏  Исследователи компании Anthropic обнаружили новый тип атаки на системы искусственного интеллекта, названный "многоимпульсным взломом".
Около минуты