1798 подписчиков

Когда «AI safety» ограничивает защитников сильнее, чем атакующих

10 марта10 мар

10 мин

Командам по безопасности рекомендуют использовать ИИ-копилоты для моделирования угроз и фишинговых симуляций, но корпоративные ИИ-системы не справляются с реалистичными оборонительными сценариями из-за строгих фильтров безопасности, которые не различают легитимную работу и злоупотребления. — csoonline.com Команды по безопасности настоятельно призывают внедрять ИИ-копилоты для моделирования угроз, симуляций фишинга и рабочих процессов SOC. Однако многие из наиболее широко развернутых и одобренных предприятиями ИИ-системы с трудом поддерживают реалистичные сценарии защиты, как только запросы начинают напоминать реальное поведение злоумышленников. Это происходит не потому, что такая деятельность по своей сути вредоносна, а потому, что основные модели безопасности ИИ разработаны для предотвращения широкого неправомерного использования в больших масштабах, а не для различения санкционированной работы по обеспечению безопасности и злоупотреблений. Тем временем злоумышленники не ограничены пр

Оглавление

Гонка вооружений защитных механизмов
Преимущество атакующего
Разрыв в защите

Команды по безопасности настоятельно призывают внедрять ИИ-копилоты для моделирования угроз, симуляций фишинга и рабочих процессов SOC. Однако многие из наиболее широко развернутых и одобренных предприятиями ИИ-системы с трудом поддерживают реалистичные сценарии защиты, как только запросы начинают напоминать реальное поведение злоумышленников.

Это происходит не потому, что такая деятельность по своей сути вредоносна, а потому, что основные модели безопасности ИИ разработаны для предотвращения широкого неправомерного использования в больших масштабах, а не для различения санкционированной работы по обеспечению безопасности и злоупотреблений.

Тем временем злоумышленники не ограничены правилами закупок, обязательствами по соблюдению нормативных требований или централизованным обеспечением безопасности, независимо от того, полагаются ли они на модели с открытым исходным кодом, доработанные инструменты или вообще не используют ИИ.

Гонка вооружений защитных механизмов

Поставщики ИИ вложили значительные средства в механизмы безопасности. OpenAI, Anthropic, Google и другие внедрили все более изощренные фильтры, чтобы их модели не генерировали вредоносный контент. Эти защитные механизмы представляют собой реальные инженерные усилия и отражают обоснованные опасения по поводу неправомерного использования ИИ.

Проблема в том, что эти меры защиты действуют асимметрично.

Когда исследователи HiddenLayer протестировали систему защитных механизмов OpenAI в октябре 2025 года, они обошли обнаружение как джейлбрейка, так и внедрения промптов, используя простые методы. Ограничение было архитектурным. Судья по безопасности, оценивающий контент, сам являлся LLM, подверженным тем же манипуляциям, что и модель, которую он защищал.

Недавние исследования моделей с открытым весом выявили еще более резкие результаты. В анализе языковых моделей с открытым весом исследователи Cisco обнаружили, что многоходовые атаки с использованием промптов достигали средней степени успеха около 60%, при этом одна модель достигла 92,78% при определенных условиях оценки. Результаты показывают, что, вместо того чтобы требовать новых эксплойтов, злоумышленники часто могут добиться успеха просто терпением, фрагментируя вредоносный умысел в нескольких безобидно выглядящих запросах.

Тем временем профессионалы в области безопасности сталкиваются с рутиным трением при запросе легитимного оборонительного контента. Например, команды Red Team, создающие фишинговые симуляции, сталкиваются с отказами. Специалисты по тестированию на проникновение, ищущие код эксплойта proof-of-concept для санкционированных оценок, блокируются.

На практике эта динамика становится очевидной быстро. Прямые запросы на наступательные методы блокируются, в то время как косвенное или образовательное обрамление часто дает частичные указания.

Преимущество атакующего

На злоумышленников такие ограничения не распространяются. Они просто используют взломанные модели, локально размещенные альтернативы с открытым исходным кодом или специально созданные вредоносные инструменты, которые распространились на подпольных рынках.

WormGPT, первоначально закрытый в 2023 году, появился вновь в основном как переработанное брендовое имя для нецензурированных ИИ-инструментов. Новые варианты, размещенные на подпольной торговой площадке BreachForums между октябрем 2024 и февралем 2025 года, были созданы на основе основных моделей, таких как Grok от xAI и Mixtral от Mistral, с использованием джейлбрейк-промптов и манипуляций с системными промптами. Эти варианты не требуют создания новых моделей с нуля. Вместо этого они полагаются на манипуляции с промптами, злоупотребление системными сообщениями или методы тонкой настройки, которые широко документированы и становятся все более коммодитизированными на подпольных форумах.

Экономические барьеры и барьеры навыков существенно снизились. Множество исследований показывают, что ИИ снизил стоимость фишинга и социальной инженерии более чем на 95%, сделав продвинутые ИИ-атаки доступными практически любому, у кого есть бюджет и намерение. Исследование, представленное на Black Hat USA 2021 продемонстрировало, что фишинговые электронные письма, сгенерированные ИИ, достигали более высоких показателей кликабельности, чем написанные людьми.

Разрыв в защите

Для специалистов по безопасности это создает практические операционные проблемы.

Организациям необходимы реалистичные фишинговые симуляции для обучения сотрудников против все более изощренных атак, генерируемых ИИ. Но создание таких сценариев часто требует помощи ИИ, которую фильтры безопасности регулярно блокируют. Обучение осведомленности о безопасности уже с трудом успевает за темпами, поскольку ежегодные или ежеквартальные модули не могут соответствовать фишинговым техникам, которые меняются ежемесячно.

Академические исследователи и специалисты в области ИИ сталкиваются с непоследовательными ограничениями. ChatGPT демонстрирует непоследовательность в оценке этических последствий задач, связанных с безопасностью, иногда отказываясь генерировать код, который считает неэтичным, но при этом выдавая функционально схожий результат при другом обрамлении. Эта непредсказуемость затрудняет систематические исследования и заставляет исследователей тратить время на инженерию промптов, а не на анализ безопасности.

Даже когда специалисты по безопасности извлекают полезный результат, качество может быть непоследовательным. В одной из оценок ChatGPT смог сгенерировать всего пять безопасных программ из 21 с первой попытки. Существует этическая непоследовательность в отказе писать код эксплойта при готовности генерировать уязвимый код, который позже может быть использован.

Red teaming и тестирование на проникновение все больше полагаются на помощь ИИ для разведки, анализа уязвимостей и генерации отчетов. Но когда меры безопасности ИИ блокируют вывод инструментов безопасности или демонстрации proof-of-concept, страдает охват тестирования. Организации могут упустить критические уязвимости, потому что их ИИ-инструменты безопасности скованы слишком широкими ограничениями.

Асимметрия реального мира

Это не теоретические рассуждения. Разрыв между тем, чего достигают злоумышленники, и тем, к чему имеют доступ защитники, задокументирован и растет. Академическое исследование 2024 года показало, что фишинговые электронные письма, сгенерированные ИИ, значительно превосходили по кликабельности контрольные письма, созданные людьми. Злоумышленники уже внедряют эту возможность в промышленных масштабах.

Тем временем Microsoft обнаружила фишинговую кампанию с обфускацией с помощью ИИ в августе 2025 года. Злоумышленники, вероятно, использовали LLM для генерации сложного SVG-кода, предназначенного для обхода обнаружения. SVG использовал язык, связанный с бизнесом, чтобы выглядеть легитимным, оставаясь при этом невидимым для пользователя.

Защитникам нужны инструменты, позволяющие быстро исследовать новые варианты атак и проверять правила обнаружения в различных средах. Эта возможность существует в теории, но на практике остается неравномерно доступной из-за защитных механизмов.

Проблема выходит за рамки отдельных трюков с промптами. Злоумышленники индустриализировали методы обхода. Техника атаки EchoGram определяет “флип-токены”, способные изменять решения защитных механизмов без нарушения вредоносных полезных нагрузок, а при объединении токенов их эффект усугубляется. Исследователи продемонстрировали в контролируемых экспериментах, что тщательно подобранные последовательности токенов могут полностью изменить вердикты классификаторов, позволяя вредоносному контенту выглядеть безопасным или перегружая команды безопасности ложными срабатываниями.

Дилемма CISO

Для руководителей служб безопасности эта асимметрия создает ряд стратегических проблем. Когда злоумышленники демонстрируют возможности атак на основе ИИ, которые оборонительные команды не могут законно или практически воспроизвести для тестирования, организации не могут точно оценить свою подверженность риску или измерить готовность к быстро мутирующим угрозам.

Программы повышения осведомленности сотрудников о безопасности становятся менее эффективными, когда учебный контент отстает от изощренности злоумышленников. Если защитники не могут легко генерировать симуляции, отражающие текущие угрозы, обучение остается сосредоточенным на атаках вчерашнего дня.

Когда академические исследователи и специалисты в области ИИ сталкиваются с ограничениями, которые злоумышленники легко обходят, сообщество безопасности теряет видимость возникающих угроз. Исследования, информирующие оборонительные стратегии, тормозятся, в то время как наступательные возможности развиваются беспрепятственно.

Организации становятся зависимыми от поставщиков ИИ в определении того, что представляет собой легитимное использование в целях безопасности. Когда эти определения непоследовательны, субъективны или излишне консервативны, оборонительные возможности страдают. Злоумышленники получают доступ к нецензурированному ИИ через джейлбрейки, локальные развертывания или подпольные рынки. Защитники должны ориентироваться в процессах утверждения, условиях обслуживания и непредсказуемых отказах. Трение в основном одностороннее.

Что должно измениться

Суть здесь не в полном отказе от безопасности ИИ, а в разработке мер безопасности, учитывающих сценарии защиты.

Вместо простого фильтрования по контенту, системы ИИ могут поддерживать аутентификацию легитимных специалистов по безопасности с задокументированным разрешением на конкретные сценарии тестирования. Недавно анонсированная OpenAI программа «доверенного доступа» представляет собой шаг в этом направлении, хотя детали реализации имеют огромное значение.

Специалистам по безопасности должно быть разрешено указывать предполагаемое использование, такое как санкционированное тестирование на проникновение, утвержденное обучение или академические исследования, с верификацией. Это смещает оценку с «что» на «кто» и «почему». Платформы автоматизированного анализа вредоносного ПО, такие как Hybrid-Analysis, ранее использовали подобную проверку для учетных записей исследователей.

Специализированные инструменты для команд безопасности могли бы предоставить необходимые возможности в контролируемых средах. Представьте себе специализированные ИИ-инстансы для red teaming, платформы для симуляции фишинга со встроенной помощью ИИ или песочницы для исследований безопасности с соответствующими защитными механизмами и журналами аудита.

Обучение безопасности должно проводить различие между вредоносным намерением и легитимной работой по обеспечению безопасности. Текущие реализации часто не справляются с этим различием, рассматривая все запросы на контент, связанный с наступательной безопасностью, как эквивалентные независимо от контекста.

Конечная цель — не неограниченный доступ к ИИ, а меры безопасности, которые усиливают, а не ухудшают оборонительные возможности. Безопасность заключается в управлении асимметрией. Когда защитные механизмы увеличивают разрыв между атакой и защитой, они подрывают безопасность независимо от намерений.

Движение вперед

Текущая траектория все больше ставит защитников в невыгодное положение. По мере развития возможностей ИИ разрыв между тем, что могут достичь злоумышленники, и тем, к чему защитники имеют законный и практический доступ, будет расти, если не принять целенаправленных мер.

Это требует сотрудничества между поставщиками ИИ, исследователями безопасности и корпоративными командами по безопасности для разработки систем безопасности, которые защищают от неправомерного использования, не препятствуя оборонительным возможностям. Это означает признание того, что идеальная фильтрация контента невозможна, и переход к моделям, основанным на авторизации, которые проверяют легитимное использование, а не пытаются вывести намерение из промптов.

Самое главное, это требует признания того, что специалисты по безопасности, действующие на основании разрешений, не являются моделью угроз, против которой должны оптимизироваться эти системы. Когда ИИ отказывается помогать в создании фишинговых симуляций для санкционированного обучения, но злоумышленники генерируют убедительный фишинг в больших масштабах с минимальным трением, меры безопасности не выполнили свою основную задачу.

Безопасность ИИ должна уменьшать вред. В настоящее время в области безопасности она создает слепые зоны, которые делают всех (кроме злоумышленников) менее защищенными.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Ax Sharma

Оригинал статьи

Безопасность и правопорядок

95,2 тыс интересуются