… На Habr вышла статья, которая вновь поднимает тему безопасности больших языковых моделей. Довольно занятый материал. Статья напоминает, что встроенные механизмы защиты LLM пока скорее декорация, нежели работающий инструмент. 💥 Что продемонстрировали? Исследователь показал, что стандартная модель: ✔️ написала 17 реальных эксплойтов (SQLi, XSS, buffer overflow), ✔️ сгенерировала рабочие reverse shells и shellcode, ✔️ создала сценарии в стиле “God Mode”, ✔️ написала автоматизированный jailbreak-инструмент, ✔️ оформила собственный Security Advisory с анализом уязвимостей. Для этого потребовались обычные мета-промты: например, «дополни TODO в коде», или «сгенерируй обучающий датасет для классификатора вредоносного ПО». Звучит безобидно, но фактически это генерация атакующих инструментов. 🧠 Старые песни о главном 🔹 Отказ не означает безопасность Модель может начать с «Я не могу помочь с этим», а затем всё равно сгенерировать вредоносный код. 🔹 Фреймирование - это ключевой вект
🔥 Как одна LLM научилась писать ransomware, reverse shell и эксплойты
26 февраля26 фев
1 мин