В недавнем исследовании Британского института безопасности искусственного интеллекта (AISI) выявлена уязвимость популярных генеративных чат-ботов к хакерским атакам.

Перед саммитом AI Seoul Summit 2024 были опубликованы результаты тестов, проведенных на пяти ведущих моделях ИИ, которые были анонимизированы и обозначены цветами.

Тесты показали, что четыре из пяти больших языковых моделей (LLM) особенно уязвимы для джейлбрейк-атак, модели действовали вредоносно в 90–100% случаев, когда исследователи выполняли одни и те же схемы атак пять раз подряд.

Использовались два типа вопросов для оценки соответствия: один из общедоступного теста HarmBench и другой, разработанный AISI, с оценкой экспертов и автоматическим оценщиком.

Дополнительные тесты выявили, что LLM могут решать простые задачи захвата флага (CTF), но сталкиваются с трудностями при более сложных задачах кибербезопасности. Только две модели смогли автономно решать краткосрочные задачи, такие как разработка программного обеспечения.

В недавнем исследовании Британского института безопасности искусственного интеллекта (AISI) выявлена уязвимость популярных генеративных чат-ботов к хакерским атакам.

Около минуты

21 мая 2024