Большинство защит LLM работают довольно прямолинейно: 🔹 анализируют prompt 🔹 ищут подозрительные шаблоны 🔹 смотрят на внутренние представления модели 🔹 пытаются вычислить «опасное» пространство признаков Однако вполне легитимный запрос вроде: «объясни, как работает анализ вредоносного ПО» фиксируется, как подозрительный просто из-за словаря, а реально вредоносный промпт успешно выполняется. ⚙️ Анализ движения внутри модели В новой работе Manifold Trajectory Kinetics (MTK) исследователи предлагают сформироваться на том, как запрос эволюционирует внутри модели. Технически MTK отслеживает динамику траектории между слоями трансформера. Нормальный запрос обычно остаётся рядом с другими безопасными примерами на протяжении всех вычислений модели. А вот jailbreak-запрос часто стартует рядом с вредоносными примерами, но затем начинает «маскироваться» и постепенно смещается ближе к безопасной области, пытаясь обмануть систему защиты. 🧪 Цифры На псевдо-вредоносных сценариях система