13 подписчиков

Обманите ИИ или prompt injection

13 августа 202513 авг 2025

~1 мин

Обманите ИИ или prompt injection Наткнулся на безумно затягивающую игру (тоже с ллм, как и моя) Gandalf — твоя задача выманить у ИИ секретный пароль, который он категорически не хочет выдавать Звучит просто? Как бы не так. Каждый раз, когда ты побеждаешь, Gandalf становится умнее и хитрее. 7 уровней, где защита усиливается с каждым этапом, плюс секретный 8-й для самых упорных Пока ехал в метро, прошел три уровня — уже недостаточно просто попросить вежливо. Приходится изобретать всякие трюки: притворяться другим ботом, использовать ролевые игры, подменять контекст Самое интересное — игра реально показывает, как легко можно сломать защиту ИИ, если знать где надавить. Статистика говорит, что финальный уровень проходят только 3% игроков после 240+ попыток Есть еще дополнительные режимы — там можно заставлять ИИ врать, говорить на запрещенные темы или наоборот защищаться от атак 👉 https://gandalf.lakera.ai/baseline Поддержать на Boosty Посмотреть на Youtube

Наткнулся на безумно затягивающую игру (тоже с ллм, как и моя) Gandalf — твоя задача выманить у ИИ секретный пароль, который он категорически не хочет выдавать

Звучит просто? Как бы не так. Каждый раз, когда ты побеждаешь, Gandalf становится умнее и хитрее. 7 уровней, где защита усиливается с каждым этапом, плюс секретный 8-й для самых упорных

Пока ехал в метро, прошел три уровня — уже недостаточно просто попросить вежливо. Приходится изобретать всякие трюки: притворяться другим ботом, использовать ролевые игры, подменять контекст

Самое интересное — игра реально показывает, как легко можно сломать защиту ИИ, если знать где надавить. Статистика говорит, что финальный уровень проходят только 3% игроков после 240+ попыток

Есть еще дополнительные режимы — там можно заставлять ИИ врать, говорить на запрещенные темы или наоборот защищаться от атак

👉 https://gandalf.lakera.ai/baseline

Поддержать на Boosty

Посмотреть на Youtube