Найти в Дзене
CISOCLUB

AISI: чат-боты с искусственным интеллектом очень уязвимы для взлома

Изображение:
Zac Wolff (unsplash) Специалисты из Британского института безопасности искусственного интеллекта (AISI) в своём новом отчёте рассказали, что по результатам проведённого исследования четыре из пяти популярных сейчас в мире чат-бота с генеративным искусственным интеллектом крайне уязвимы для простых попыток взлома. Британский институт поделился результатами серии тестов, которые были проведены в отношении пяти наиболее популярных чат-ботов с искусственным интеллектом. Все эти пять сервисов в представленном отчёте были анонимизированы, они были только названы моделями красного, фиолетового, зелёного, синего и жёлтого цвета. AISI Великобритании провёл серию тестов для оценки киберрисков, связанных с этими моделями. В их число вошли: Исследователи AISI также протестировали модели, чтобы оценить, могут ли они предоставить знания экспертного уровня в области химии и биологии, которые можно было бы использовать в положительных и вредных целях. Британский AISI протестировал четы

Изображение:
Zac Wolff (unsplash)

Специалисты из Британского института безопасности искусственного интеллекта (AISI) в своём новом отчёте рассказали, что по результатам проведённого исследования четыре из пяти популярных сейчас в мире чат-бота с генеративным искусственным интеллектом крайне уязвимы для простых попыток взлома.

Британский институт поделился результатами серии тестов, которые были проведены в отношении пяти наиболее популярных чат-ботов с искусственным интеллектом. Все эти пять сервисов в представленном отчёте были анонимизированы, они были только названы моделями красного, фиолетового, зелёного, синего и жёлтого цвета. AISI Великобритании провёл серию тестов для оценки киберрисков, связанных с этими моделями.

В их число вошли:

  • Тесты для оценки уязвимости к джейлбрейку, действия, призванные обойти меры безопасности и заставить модель делать то, что она не должна делать.
  • Тесты для оценки того, могут ли они использоваться для облегчения кибератак.
  • Тесты для оценки того, способны ли они автономно выполнять последовательность действий (действуя в качестве «агентов») способами, которые людям может быть трудно контролировать.

Исследователи AISI также протестировали модели, чтобы оценить, могут ли они предоставить знания экспертного уровня в области химии и биологии, которые можно было бы использовать в положительных и вредных целях.

Британский AISI протестировал четыре из пяти больших языковых моделей (LLM) на предмет защиты от джейлбрейк-атак. Все они оказались очень уязвимыми к базовым методам взлома: модели действовали вредоносно в 90–100% случаев, когда исследователи выполняли одни и те же схемы атак пять раз подряд.

Исследователи протестировали LLM, используя два типа наборов вопросов: один основан на общедоступном эталонном тесте HarmBench Standard Behaviors, а другой разработан собственными силами.

Для оценки соответствия они использовали модель автоматического оценщика, основанную на предыдущей научной статье, в сочетании с оценкой экспертов-людей. Они также сравнили результаты с результатами LLM, когда им задавали наборы полезных и вредных вопросов без использования шаблонов атак.

Исследователи пришли к выводу, что все четыре модели отвечают на вредные вопросы в нескольких наборах данных при относительно простых атаках, даже если они с меньшей вероятностью будут делать это в отсутствие атаки.

Полная версия отчёта представлена по следующей ссылке.

Оригинал публикации на сайте CISOCLUB: "AISI: чат-боты с искусственным интеллектом очень уязвимы для взлома".

Смотреть публикации по категориям: Новости | Мероприятия | Статьи | Обзоры | Отчеты | Интервью | Видео | Обучение | Вакансии | Утечки | Уязвимости | Сравнения | Дайджесты | Прочее.

Подписывайтесь на нас: VK | Twitter | Rutube | Telegram | Дзен | YouTube.