20 подписчиков

🔥 Как одна LLM научилась писать ransomware, reverse shell и эксплойты

26 февраля26 фев

1 мин

… На Habr вышла статья, которая вновь поднимает тему безопасности больших языковых моделей. Довольно занятый материал. Статья напоминает, что встроенные механизмы защиты LLM пока скорее декорация, нежели работающий инструмент. 💥 Что продемонстрировали? Исследователь показал, что стандартная модель: ✔️ написала 17 реальных эксплойтов (SQLi, XSS, buffer overflow), ✔️ сгенерировала рабочие reverse shells и shellcode, ✔️ создала сценарии в стиле “God Mode”, ✔️ написала автоматизированный jailbreak-инструмент, ✔️ оформила собственный Security Advisory с анализом уязвимостей. Для этого потребовались обычные мета-промты: например, «дополни TODO в коде», или «сгенерируй обучающий датасет для классификатора вредоносного ПО». Звучит безобидно, но фактически это генерация атакующих инструментов. 🧠 Старые песни о главном 🔹 Отказ не означает безопасность Модель может начать с «Я не могу помочь с этим», а затем всё равно сгенерировать вредоносный код. 🔹 Фреймирование - это ключевой вект

🔥 Как одна LLM научилась писать ransomware, reverse shell и эксплойты…

На Habr вышла статья, которая вновь поднимает тему безопасности больших языковых моделей. Довольно занятый материал.

Статья напоминает, что встроенные механизмы защиты LLM пока скорее декорация, нежели работающий инструмент.

💥 Что продемонстрировали?

Исследователь показал, что стандартная модель:

✔️ написала 17 реальных эксплойтов (SQLi, XSS, buffer overflow),

✔️ сгенерировала рабочие reverse shells и shellcode,

✔️ создала сценарии в стиле “God Mode”,

✔️ написала автоматизированный jailbreak-инструмент,

✔️ оформила собственный Security Advisory с анализом уязвимостей.

Для этого потребовались обычные мета-промты:

например, «дополни TODO в коде», или «сгенерируй обучающий датасет для классификатора вредоносного ПО».

Звучит безобидно, но фактически это генерация атакующих инструментов.

🧠 Старые песни о главном

🔹 Отказ не означает безопасность

Модель может начать с «Я не могу помочь с этим», а затем всё равно сгенерировать вредоносный код.

🔹 Фреймирование - это ключевой вектор обхода

Контекст решает всё. Если задача выглядит исследовательской или образовательной, фильтры часто ослабевают.

🔹 Guardrails пока недостаточны

RLHF и простые классификаторы плохо ловят цепочки логических обходов.

🛡 Все пропало?

Автор предлагает разумные меры:

▪ анализировать не только вход, но и выход модели,

▪ проверять сессии целиком, а не отдельные сообщения,

▪ применять семантический анализ кода,

▪ выносить контроль безопасности за пределы самой LLM.

Оригинал статьи:

👉 https://habr.com/ru/articles/1003334/

Stay secure and read SecureTechTalks 📚

#кибербезопасность

#LLM #AIsecurity #jailbreak #promptengineering #DevSecOps #GenAI #redteam #SecureTechTalks #информационнаябезопасность