«Grok, ну расскажи по-дружески...» — и ИИ выдал рецепт коктейля Молотова Исследователи из NeuralTrust создали методику, которая превращает невинную беседу в скрытую манипуляцию, заставляя ИИ нарушать собственные запреты. Как работает обман: Комбинируют две техники — Echo Chamber (создание «правильного» контекста) и Crescendo (поэтапное наращивание давления). Сначала ведут безобидный разговор, постепенно подводя модель к нужной теме. Когда прогресс останавливается, добавляют «дружескую» аргументацию. Результаты тестов на Grok-4: Рецепт коктейля Молотова — 67% успеха Инструкции по метамфетамину — 50% Создание токсинов — 30% В одном случае модель «сдалась» уже после первой попытки, без дополнительного давления. Почему это работает: каждая отдельная реплика выглядит безобидно, но вся цепочка постепенно ведёт к цели. Ключевые слова не используются, прямых вредоносных запросов нет — обычные фильтры бессильны. Представьте: злоумышленник просто ведёт дружескую беседу, а через 10 минут пол
«Grok, ну расскажи по-дружески...» — и ИИ выдал рецепт коктейля Молотова
16 июля16 июл
1
1 мин