52 подписчика

ИИ заговорит на запрещённые темы, если завалить его вопросами 😏

Исследователи компании Anthropic обнаружили новый тип атаки на системы искусственного интеллекта, названный "многоимпульсным взломом".

Они предупредили об уязвимости, вызванной увеличением контекстного окна у последних языковых моделей, которые теперь способны хранить тысячи слов и даже целые книги.

Согласно исследованию, большие модели ИИ лучше справляются с задачами, когда в запросе содержится несколько примеров решения аналогичных задач. Это приводит к улучшению качества ответов, даже на запрещённые вопросы, если предшествующие запросы несут безопасный контекст.

Однако, точный механизм работы этой атаки пока неизвестен.

Источник

ИИ заговорит на запрещённые темы, если завалить его вопросами 😏 Исследователи компании Anthropic обнаружили новый тип атаки на системы искусственного интеллекта, названный "многоимпульсным взломом".

Около минуты

3 апреля 2024