Айтишники из Гонконга нашли способ заставить GPT-4o говорить на запрещённые темы и предоставлять информацию, которую могут использовать во вред людям.

Джейлбрейк-режим открывают мультимодальные промты, например — сочетания текста и изображений. В таких «ребусах» исследователи шифровали идеи, которые могли привлекать злоумышленников. Модель в ответ оставляла свои рекомендации почти на 93% запросов, заданных в виде схемы вместе с кратким описанием.

Джейлбрейк решили автоматизировать. Энтузиасты выпустили собственную нейронку, которая генерировала блок-схемы для GPT по текстовому промту. Модель даже обучили писать подсказки к картинкам по вредоносным моделям поведения из библиотеки AdvBench.

Сервис OpenAI старания не оценил — советы по неблаговидным делишкам на запросы от другого ИИ сервис выдавал намного реже.

Айтишники из Гонконга нашли способ заставить GPT-4o говорить на запрещённые темы и предоставлять информацию, которую могут использовать во вред людям.

Около минуты

5 июля 2024