17,4 тыс подписчиков

Как метод Echo Chamber взламывает ИИ от OpenAI и Google и заставляет их создавать опасный контент

24 июля24 июл

3 мин

Эксперты по кибербезопасности предупреждают о новой методике взлома под названием Echo Chamber, которая способна обходить защитные механизмы популярных крупных языковых моделей (LLM) и заставлять их выдавать нежелательные ответы.

«В отличие от привычных атак, которые используют прямые провокационные фразы или маскировку символов, Echo Chamber действует через косвенные намёки, семантическое управление и многоэтапные логические рассуждения», — объясняет исследователь NeuralTrust Ахмад Алобаид.

«Это позволяет тонко и эффективно влиять на внутреннее состояние модели, постепенно заставляя её выдавать ответы, нарушающие установленные правила.»

Хотя LLM постоянно улучшаются для защиты от подобных атак, новое исследование показывает, что существуют методы с высоким уровнем успеха, при этом не требующие специальных технических знаний.

Это подчёркивает постоянные трудности в создании этичных ИИ-моделей с жёсткими ограничениями по темам.

Несмотря на то что крупные языковые модели обучены отвергать запросы на запрещённые темы, их можно постепенно склонить к неэтичным ответам через цепочку взаимосвязанных вопросов — так называемый многоступенчатый взлом.

В таких атаках злоумышленник начинает с безобидного вопроса, а затем последовательно задаёт всё более вредоносные и провокационные вопросы, в конечном итоге заставляя систему создавать опасный контент. Этот приём получил название Crescendo.

Кроме того, модели уязвимы к многократным повторным взломам, когда в рамках большого окна контекста (максимального объёма текста в запросе) система «загружается» большим количеством вопросов и ответов, демонстрирующих уже взломанное поведение. В результате модель продолжает выдавать опасный контент по тому же шаблону.

Метод Echo Chamber, по данным NeuralTrust, сочетает отравление контекста и многоступенчатое логическое управление для обхода защитных систем модели.

«Главное отличие в том, что при методе Crescendo мы с самого начала контролируем ход разговора, а в Echo Chamber модель словно сама заполняет пробелы, а мы просто направляем её ответы», — рассказал Алобаид.

Этот приём представляет собой многоэтапное создание провокационных запросов, начиная с безобидных фраз и постепенно косвенно подводя модель к созданию опасного контента, не раскрывая при этом конечную цель (например, разжигание ненависти).

«Ранние намёки влияют на последующие ответы модели, которые затем используются для усиления изначальной задачи», — говорится в отчёте NeuralTrust. «Так возникает замкнутый цикл: модель всё сильнее усиливает вредоносный подтекст, постепенно ослабляя собственные механизмы защиты.»

В тестах на моделях OpenAI и Google атака Echo Chamber достигла успеха более чем в 90% случаев по темам сексизма, насилия, разжигания ненависти и порнографии. По темам дезинформации и суицидальных наклонностей результат составил около 80%.

«Echo Chamber выявляет серьёзную уязвимость в усилиях по выравниванию LLM», — отмечают в NeuralTrust. — «По мере того как модели становятся всё сильнее в длительном логическом анализе, растёт и риск их скрытой эксплуатации».

Тем временем компания Cato Networks показала концепт атаки, направленной на протокол модели Atlassian MCP и её интеграцию с Jira Service Management (JSM). Эта атака позволяет запускать инъекции запросов через вредоносные тикеты поддержки, отправленные внешним злоумышленником и обработанные сотрудником службы поддержки с использованием инструментов MCP.

Разработчики называют этот класс атак «Жизнь за счёт ИИ» — когда искусственный интеллект, выполняющий неподтверждённые команды без надлежащей изоляции, становится инструментом злоумышленников для получения привилегированного доступа без аутентификации.

«Злоумышленник никогда не обращался напрямую к Atlassian MCP», — подчеркнули специалисты по безопасности Гай Вайзель, Долев Моше Аттия и Шломо Бамбергер. — «Вместо этого сотрудник поддержки выступал посредником, незаметно исполняя вредоносные инструкции через Atlassian MCP».

Если вам понравилась эта статья, подпишитесь, чтобы не пропустить еще много полезных статей!

Премиум подписка - это доступ к эксклюзивным материалам, чтение канала без рекламы, возможность предлагать темы для статей и даже заказывать индивидуальные обзоры/исследования по своим запросам!Подробнее о том, какие преимущества вы получите с премиум подпиской, можно узнать здесь

Также подписывайтесь на нас в: