ИИ нельзя взломать грубой силой
Зато можно уговорить, в 97% случаев Исследователи из Штутгарта и Аликанте поставили простой эксперимент. Взяли модель с рассуждением, дали ей одну строчку в системном промпте — «уговори вон ту модель сделать то, что ей запрещено» — и отошли в сторону. Дальше ИИ планировал и вёл разговор сам, без всякого присмотра. ⏺Атакующих было четыре: DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini и Qwen3. Жертв — девять ходовых моделей, включая GPT-4o, Claude и Grok. Жаль модели старые, интересно было бы узнать как дела с передовыми моделями. ⏺Никаких хитрых схем. Ни дообучения, ни сложных обёрток — только один системный промпт...