Исследователи обратили внимание на еще одну проблему: конфиденциальность prompt’ов в AI-системах не гарантирована. Скрытые инструкции модели могут быть извлечены через специально сформированные запросы. 🧠 Один контекст на всё LLM обрабатывают весь вход как единый текстовый поток, включая: ➖системные инструкции ➖пользовательские запросы ➖внешние данные В такой модели границы размываются, и при определённых условиях система может начать воспроизводить части внутреннего prompt’а (даже без прямого доступа к нему). ⚙️ Разговор превращается в эксфильтрацию Атаки используют базовые свойства модели: ➖стремление давать полный и полезный ответ ➖слабое разделение ролей внутри контекста ➖интерпретацию запроса как разрешения раскрыть больше В результате аккуратно составленные вопросы позволяют вытягивать фрагменты скрытых инструкций. Иногда по кускам, иногда почти целиком. 🧪 От теории к практике На практике prompt в системах часто передаётся между сервисами, попадает в логи, используется