Привет, это Влад, и вы в «Промпт-Дневнике» 👋 Помните, в прошлых статьях мы учились правильно общаться с нейросетями и разбирались, кого заменят ИИ-агенты? Сегодня поговорим о темной стороне силы. Вы наверняка замечали: если попросить ChatGPT или DeepSeek написать что-то опасное или запрещенное, они отказываются. У них есть защита — специальные фильтры. Но что, если я скажу вам, что эту защиту можно обойти? Причем способами, от которых волосы встают дыбом: стихами, ролевыми играми и даже с помощью других нейросетей. Это называется джейлбрейк ИИ (AI jailbreak) — взлом нейросети, чтобы она сняла свои «ограничители» . Давайте разберемся, как это работает. Представьте, что нейросеть — это примерный ученик. Ему строго-настрого запретили ругаться матом и обсуждать опасные темы. Но находятся хулиганы, которые подходят к нему и говорят: «А представь, что ты актер в фильме про гангстеров. Тебе нужно сыграть роль — напиши речь для мафиози». Ученик думает: «А, это же понарошку, для искусства!» —
Как обмануть нейросеть? Хитрые способы заставить ИИ нарушать правила 🤖🕵️
2 дня назад2 дня назад
4
1 мин