52 подписчика
ИИ заговорит на запрещённые темы, если завалить его вопросами 😏
Исследователи компании Anthropic обнаружили новый тип атаки на системы искусственного интеллекта, названный "многоимпульсным взломом".
Они предупредили об уязвимости, вызванной увеличением контекстного окна у последних языковых моделей, которые теперь способны хранить тысячи слов и даже целые книги.
Согласно исследованию, большие модели ИИ лучше справляются с задачами, когда в запросе содержится несколько примеров решения аналогичных задач. Это приводит к улучшению качества ответов, даже на запрещённые вопросы, если предшествующие запросы несут безопасный контекст.
Однако, точный механизм работы этой атаки пока неизвестен.
Около минуты
3 апреля 2024