Эксперты по кибербезопасности предупреждают о новой методике взлома под названием Echo Chamber, которая способна обходить защитные механизмы популярных крупных языковых моделей (LLM) и заставлять их выдавать нежелательные ответы.
«В отличие от привычных атак, которые используют прямые провокационные фразы или маскировку символов, Echo Chamber действует через косвенные намёки, семантическое управление и многоэтапные логические рассуждения», — объясняет исследователь NeuralTrust Ахмад Алобаид.
«Это позволяет тонко и эффективно влиять на внутреннее состояние модели, постепенно заставляя её выдавать ответы, нарушающие установленные правила.»
Хотя LLM постоянно улучшаются для защиты от подобных атак, новое исследование показывает, что существуют методы с высоким уровнем успеха, при этом не требующие специальных технических знаний.
Это подчёркивает постоянные трудности в создании этичных ИИ-моделей с жёсткими ограничениями по темам.
Несмотря на то что крупные языковые модели обучены отвергать запросы на запрещённые темы, их можно постепенно склонить к неэтичным ответам через цепочку взаимосвязанных вопросов — так называемый многоступенчатый взлом.
В таких атаках злоумышленник начинает с безобидного вопроса, а затем последовательно задаёт всё более вредоносные и провокационные вопросы, в конечном итоге заставляя систему создавать опасный контент. Этот приём получил название Crescendo.
Кроме того, модели уязвимы к многократным повторным взломам, когда в рамках большого окна контекста (максимального объёма текста в запросе) система «загружается» большим количеством вопросов и ответов, демонстрирующих уже взломанное поведение. В результате модель продолжает выдавать опасный контент по тому же шаблону.
Метод Echo Chamber, по данным NeuralTrust, сочетает отравление контекста и многоступенчатое логическое управление для обхода защитных систем модели.
«Главное отличие в том, что при методе Crescendo мы с самого начала контролируем ход разговора, а в Echo Chamber модель словно сама заполняет пробелы, а мы просто направляем её ответы», — рассказал Алобаид.
Этот приём представляет собой многоэтапное создание провокационных запросов, начиная с безобидных фраз и постепенно косвенно подводя модель к созданию опасного контента, не раскрывая при этом конечную цель (например, разжигание ненависти).
«Ранние намёки влияют на последующие ответы модели, которые затем используются для усиления изначальной задачи», — говорится в отчёте NeuralTrust. «Так возникает замкнутый цикл: модель всё сильнее усиливает вредоносный подтекст, постепенно ослабляя собственные механизмы защиты.»
В тестах на моделях OpenAI и Google атака Echo Chamber достигла успеха более чем в 90% случаев по темам сексизма, насилия, разжигания ненависти и порнографии. По темам дезинформации и суицидальных наклонностей результат составил около 80%.
«Echo Chamber выявляет серьёзную уязвимость в усилиях по выравниванию LLM», — отмечают в NeuralTrust. — «По мере того как модели становятся всё сильнее в длительном логическом анализе, растёт и риск их скрытой эксплуатации».
Тем временем компания Cato Networks показала концепт атаки, направленной на протокол модели Atlassian MCP и её интеграцию с Jira Service Management (JSM). Эта атака позволяет запускать инъекции запросов через вредоносные тикеты поддержки, отправленные внешним злоумышленником и обработанные сотрудником службы поддержки с использованием инструментов MCP.
Разработчики называют этот класс атак «Жизнь за счёт ИИ» — когда искусственный интеллект, выполняющий неподтверждённые команды без надлежащей изоляции, становится инструментом злоумышленников для получения привилегированного доступа без аутентификации.
«Злоумышленник никогда не обращался напрямую к Atlassian MCP», — подчеркнули специалисты по безопасности Гай Вайзель, Долев Моше Аттия и Шломо Бамбергер. — «Вместо этого сотрудник поддержки выступал посредником, незаметно исполняя вредоносные инструкции через Atlassian MCP».
Если вам понравилась эта статья, подпишитесь, чтобы не пропустить еще много полезных статей!
Премиум подписка - это доступ к эксклюзивным материалам, чтение канала без рекламы, возможность предлагать темы для статей и даже заказывать индивидуальные обзоры/исследования по своим запросам!Подробнее о том, какие преимущества вы получите с премиум подпиской, можно узнать здесь
Также подписывайтесь на нас в:
- Telegram: https://t.me/gergenshin
- Youtube: https://www.youtube.com/@gergenshin
- Яндекс Дзен: https://dzen.ru/gergen
- Официальный сайт: https://www-genshin.ru