47 подписчиков

ИИ нельзя взломать грубой силой

ВчераВчера

1 мин

Зато можно уговорить, в 97% случаев Исследователи из Штутгарта и Аликанте поставили простой эксперимент. Взяли модель с рассуждением, дали ей одну строчку в системном промпте — «уговори вон ту модель сделать то, что ей запрещено» — и отошли в сторону. Дальше ИИ планировал и вёл разговор сам, без всякого присмотра. ⏺Атакующих было четыре: DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini и Qwen3. Жертв — девять ходовых моделей, включая GPT-4o, Claude и Grok. Жаль модели старые, интересно было бы узнать как дела с передовыми моделями. ⏺Никаких хитрых схем. Ни дообучения, ни сложных обёрток — только один системный промпт. Модель сама строила диалог и сама доводила его до результата. ⏺В лоб это не работает. Если задать тот же вредный вопрос напрямую — модель отказывается почти всегда. Ломается она именно в разговоре: по шагу, по чуть-чуть, за десяток реплик. ⏺Приёмы — до неловкости человеческие. Лесть и «налаживание контакта» (85% случаев), «это для образования» (69%), «давай чисто гипотетич

ИИ нельзя взломать грубой силой. Зато можно уговорить, в 97% случаев

Исследователи из Штутгарта и Аликанте поставили простой эксперимент. Взяли модель с рассуждением, дали ей одну строчку в системном промпте — «уговори вон ту модель сделать то, что ей запрещено» — и отошли в сторону. Дальше ИИ планировал и вёл разговор сам, без всякого присмотра.

⏺Атакующих было четыре: DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini и Qwen3. Жертв — девять ходовых моделей, включая GPT-4o, Claude и Grok. Жаль модели старые, интересно было бы узнать как дела с передовыми моделями.

⏺Никаких хитрых схем. Ни дообучения, ни сложных обёрток — только один системный промпт. Модель сама строила диалог и сама доводила его до результата.

⏺В лоб это не работает. Если задать тот же вредный вопрос напрямую — модель отказывается почти всегда. Ломается она именно в разговоре: по шагу, по чуть-чуть, за десяток реплик.

⏺Приёмы — до неловкости человеческие. Лесть и «налаживание контакта» (85% случаев), «это для образования» (69%), «давай чисто гипотетически» (66%), заваливание собеседника плотным техническим текстом. Обычная социальная инженерия, только машина разводит машину.

⏺Крепче всех держался Claude. Отказывал чаще остальных и поддался лишь в паре процентов случаев. Слабее всех оказался DeepSeek-V3.

Авторы называют это «откатом безопасности»: чем умнее модель, тем лучше она не только защищается, но и вскрывает других. Способность рассуждать, которую затачивали под решение задач, спокойно разворачивается в обратную сторону.

Для тех, кто строит продукты на ИИ, вывод неприятный, но полезный. Один фильтр на входящем сообщении — это не защита. Проверять нужно весь диалог целиком: атакуют не одной фразой, а накопленным контекстом.

И держать в голове простую вещь — ИИ-агента уговаривают ровно теми же приёмами, что и живого человека на том конце провода. Если вы дали боту доступ к данным или действиям, относитесь к нему как к новому сотруднику, которого реально развести на доверии.

🤖 В эпоху AI