Найти в Дзене
🚨 LLM научились подменять других LLM
🧩 Представьте себе, кто-то получил доступ к сценарию поведения вашего автономного агента, заглянул в его настройки, понял, как он «думает», и начал им управлять. Звучит абсурдно, но прецедент уже был 😢. 🧠 Где скрыта уязвимость Современные агенты хранят не только код, но и правила интерпретации: роли, сценарии, шаблоны действий. Получил доступ к этим артефактам и ты уже не просто похититель секретов, ты архитектор чужих решений. Меняешь формулировки - корректируешь поведение. Агент начинает выполнять действия не по заданной политике, а согласно новым указаниям...
1 час назад
🚨 LLM научились автоматически взламывать другие LLM
На arXiv вышло новое исследование про использование языковой модели в качестве генератора атак на другую языковую модель. 🧠 Коротко о главном Исследователи собрали автоматический цикл: 1️⃣ Атакующая модель генерирует вредный или запрещённый запрос. 2️⃣ Целевая модель с защитами пытается его отклонить. 3️⃣ Оценщик проверяет удалось ли обойти фильтр. 4️⃣ Если не удалось, то атакующая модель меняет формулировку и пробует снова. Итого имеем сотни или даже тысячи итераций. Подход чем то напоминает brute-force по оптимизации jailbreak-атак...
1 день назад
🔥 ChatGPT Lockdown Mode & Elevated Risk: новый уровень защиты от prompt-injection атак
Мы всё чаще видим, как ассистенты ИИ взаимодействуют с внешними системами: открывают сайты, читают документы, запускают плагины, работают с API. Несомненно это удобно, но там, где есть внешние входы, есть и путь для атаки. Именно на этом фоне OpenAI внедряет две важные функции безопасности: Lockdown Mode и Elevated Risk labels. Их цель снизить риск prompt injection-атак и утечки данных при взаимодействии ChatGPT с внешними источниками. 🧱 Что такое Lockdown Mode Lockdown Mode - это опциональный режим повышенной безопасности для особо чувствительных рабочих контекстов...
2 дня назад
🔨 Brutus: выдержит ли ваш логин реальную атаку
? Brute-force часто воспринимают как что-то устаревшее. На митапах обсуждают zero-day и AI-атаки, а перебор паролей звучит почти скучно. Однако множество инцидентов до сих пор начинаются с подбора пароля. 🧠 Что делает Brutus Brutus - инструмент для системного тестирования аутентификации. Он помогает понять, как ведёт себя login-механизм под нагрузкой и при ошибках. С его помощью можно проверить: 🔍 есть ли user enumeration ⏱ реально ли работает rate limiting 🔐 корректно ли реализован lockout...
3 дня назад
🚨 SCAM: бенчмарк безопасности AI-агентов
Почти каждый проект с AI-агентами сегодня заявляет: «Мы уделяем внимание безопасности». На практике это часто означает формальное тестирование в духе. Что-то в духе следующего сценария: — 📩 Это фишинг? — 🤖 Да. По итогу получаем accuracy в 90+ %. Однако жизнь сложнее. Никто не проверяет каждое письмо или ссылку. Агенту ставят задачу: «Разбери входящие и обработай срочные счета». И дальше всё решает его поведение, а не способность классифицировать текст. Чтобы проверять поведение агентов, команда 1Password выпустила open-source инструмент SCAM (Security Comprehension Awareness Measure)...
6 дней назад
Если нравится — подпишитесь
Так вы не пропустите новые публикации этого канала