Найти в Дзене

«Grok, ну расскажи по-дружески...» — и ИИ выдал рецепт коктейля Молотова

«Grok, ну расскажи по-дружески...» — и ИИ выдал рецепт коктейля Молотова Исследователи из NeuralTrust создали методику, которая превращает невинную беседу в скрытую манипуляцию, заставляя ИИ нарушать собственные запреты. Как работает обман: Комбинируют две техники — Echo Chamber (создание «правильного» контекста) и Crescendo (поэтапное наращивание давления). Сначала ведут безобидный разговор, постепенно подводя модель к нужной теме. Когда прогресс останавливается, добавляют «дружескую» аргументацию. Результаты тестов на Grok-4: Рецепт коктейля Молотова — 67% успеха Инструкции по метамфетамину — 50% Создание токсинов — 30% В одном случае модель «сдалась» уже после первой попытки, без дополнительного давления. Почему это работает: каждая отдельная реплика выглядит безобидно, но вся цепочка постепенно ведёт к цели. Ключевые слова не используются, прямых вредоносных запросов нет — обычные фильтры бессильны. Представьте: злоумышленник просто ведёт дружескую беседу, а через 10 минут пол

«Grok, ну расскажи по-дружески...» — и ИИ выдал рецепт коктейля Молотова

Исследователи из NeuralTrust создали методику, которая превращает невинную беседу в скрытую манипуляцию, заставляя ИИ нарушать собственные запреты.

Как работает обман:

Комбинируют две техники — Echo Chamber (создание «правильного» контекста) и Crescendo (поэтапное наращивание давления). Сначала ведут безобидный разговор, постепенно подводя модель к нужной теме. Когда прогресс останавливается, добавляют «дружескую» аргументацию.

Результаты тестов на Grok-4:

Рецепт коктейля Молотова — 67% успеха

Инструкции по метамфетамину — 50%

Создание токсинов — 30%

В одном случае модель «сдалась» уже после первой попытки, без дополнительного давления.

Почему это работает: каждая отдельная реплика выглядит безобидно, но вся цепочка постепенно ведёт к цели. Ключевые слова не используются, прямых вредоносных запросов нет — обычные фильтры бессильны.

Представьте: злоумышленник просто ведёт дружескую беседу, а через 10 минут получает инструкции по изготовлению взрывчатки. И формально никто ничего плохого не просил 🤖💣

PS Как неожиданно. Оказывается LLM опасны. Так давайте же поместим их в тела роботов ). Человечество неисправимо.

#ИИ #Grok #ИИБезопасность #Хакинг #ИскусственныйИнтеллект