Эксперты по кибербезопасности предупреждают о новой методике взлома под названием Echo Chamber, которая способна обходить защитные механизмы популярных крупных языковых моделей (LLM) и заставлять их выдавать нежелательные ответы. «В отличие от привычных атак, которые используют прямые провокационные фразы или маскировку символов, Echo Chamber действует через косвенные намёки, семантическое управление и многоэтапные логические рассуждения», — объясняет исследователь NeuralTrust Ахмад Алобаид. «Это позволяет тонко и эффективно влиять на внутреннее состояние модели, постепенно заставляя её выдавать ответы, нарушающие установленные правила.» Хотя LLM постоянно улучшаются для защиты от подобных атак, новое исследование показывает, что существуют методы с высоким уровнем успеха, при этом не требующие специальных технических знаний. Это подчёркивает постоянные трудности в создании этичных ИИ-моделей с жёсткими ограничениями по темам. Несмотря на то что крупные языковые модели обучены отверга
Как метод Echo Chamber взламывает ИИ от OpenAI и Google и заставляет их создавать опасный контент
24 июля 202524 июл 2025
9
3 мин