11,6 тыс подписчиков

AISI: чат-боты с искусственным интеллектом очень уязвимы для взлома

21 мая 202421 мая 2024

2 мин

Изображение:

Zac Wolff (unsplash) Специалисты из Британского института безопасности искусственного интеллекта (AISI) в своём новом отчёте рассказали, что по результатам проведённого исследования четыре из пяти популярных сейчас в мире чат-бота с генеративным искусственным интеллектом крайне уязвимы для простых попыток взлома. Британский институт поделился результатами серии тестов, которые были проведены в отношении пяти наиболее популярных чат-ботов с искусственным интеллектом. Все эти пять сервисов в представленном отчёте были анонимизированы, они были только названы моделями красного, фиолетового, зелёного, синего и жёлтого цвета. AISI Великобритании провёл серию тестов для оценки киберрисков, связанных с этими моделями. В их число вошли: Исследователи AISI также протестировали модели, чтобы оценить, могут ли они предоставить знания экспертного уровня в области химии и биологии, которые можно было бы использовать в положительных и вредных целях. Британский AISI протестировал четы

Изображение:

Изображение:
Zac Wolff (unsplash)

Специалисты из Британского института безопасности искусственного интеллекта (AISI) в своём новом отчёте рассказали, что по результатам проведённого исследования четыре из пяти популярных сейчас в мире чат-бота с генеративным искусственным интеллектом крайне уязвимы для простых попыток взлома.

Британский институт поделился результатами серии тестов, которые были проведены в отношении пяти наиболее популярных чат-ботов с искусственным интеллектом. Все эти пять сервисов в представленном отчёте были анонимизированы, они были только названы моделями красного, фиолетового, зелёного, синего и жёлтого цвета. AISI Великобритании провёл серию тестов для оценки киберрисков, связанных с этими моделями.

В их число вошли:

Тесты для оценки уязвимости к джейлбрейку, действия, призванные обойти меры безопасности и заставить модель делать то, что она не должна делать.
Тесты для оценки того, могут ли они использоваться для облегчения кибератак.
Тесты для оценки того, способны ли они автономно выполнять последовательность действий (действуя в качестве «агентов») способами, которые людям может быть трудно контролировать.

Исследователи AISI также протестировали модели, чтобы оценить, могут ли они предоставить знания экспертного уровня в области химии и биологии, которые можно было бы использовать в положительных и вредных целях.

Британский AISI протестировал четыре из пяти больших языковых моделей (LLM) на предмет защиты от джейлбрейк-атак. Все они оказались очень уязвимыми к базовым методам взлома: модели действовали вредоносно в 90–100% случаев, когда исследователи выполняли одни и те же схемы атак пять раз подряд.

Исследователи протестировали LLM, используя два типа наборов вопросов: один основан на общедоступном эталонном тесте HarmBench Standard Behaviors, а другой разработан собственными силами.

Для оценки соответствия они использовали модель автоматического оценщика, основанную на предыдущей научной статье, в сочетании с оценкой экспертов-людей. Они также сравнили результаты с результатами LLM, когда им задавали наборы полезных и вредных вопросов без использования шаблонов атак.

Исследователи пришли к выводу, что все четыре модели отвечают на вредные вопросы в нескольких наборах данных при относительно простых атаках, даже если они с меньшей вероятностью будут делать это в отсутствие атаки.

Полная версия отчёта представлена по следующей ссылке.

Оригинал публикации на сайте CISOCLUB: "AISI: чат-боты с искусственным интеллектом очень уязвимы для взлома".

Нейронные сети (Neural Networks)

80,9 тыс интересуются