Найти в Дзене
Герман Геншин

Как Google Создает Непробиваемую Защиту от Скрытых Атак на Искусственный Интеллект — Вы Не Поверите, Что Им Это Удалось!

Google рассказала о новых шагах по защите своих генеративных ИИ-систем, которые призваны противостоять новым видам атак — в частности, скрытым внедрениям команд — и повысить безопасность автономных ИИ-агентов. В отличие от прямых внедрений вредоносных команд, когда злоумышленник вводит инструкции напрямую в запрос, скрытые внедрения спрятаны в данных из внешних источников, объяснили специалисты по безопасности из команды GenAI Google. К таким источникам относятся электронные письма, документы и даже приглашения в календаре, которые обманывают ИИ и заставляют его раскрывать конфиденциальную информацию или выполнять вредоносные действия. Компания создала комплексную «многоуровневую» систему защиты, значительно усложняющую и удорожающую попытки атаковать их системы. В эту защиту входят усиленные модели, специализированные алгоритмы машинного обучения для выявления опасных инструкций и системные меры безопасности. К тому же, в их флагманскую модель Gemini встроены дополнительные контрольн

Google рассказала о новых шагах по защите своих генеративных ИИ-систем, которые призваны противостоять новым видам атак — в частности, скрытым внедрениям команд — и повысить безопасность автономных ИИ-агентов.

В отличие от прямых внедрений вредоносных команд, когда злоумышленник вводит инструкции напрямую в запрос, скрытые внедрения спрятаны в данных из внешних источников, объяснили специалисты по безопасности из команды GenAI Google.

К таким источникам относятся электронные письма, документы и даже приглашения в календаре, которые обманывают ИИ и заставляют его раскрывать конфиденциальную информацию или выполнять вредоносные действия.

Компания создала комплексную «многоуровневую» систему защиты, значительно усложняющую и удорожающую попытки атаковать их системы.

В эту защиту входят усиленные модели, специализированные алгоритмы машинного обучения для выявления опасных инструкций и системные меры безопасности. К тому же, в их флагманскую модель Gemini встроены дополнительные контрольные механизмы.

В том числе:

  • Классификаторы вредоносного контента, которые выявляют подозрительные команды и выдают безопасные ответы;
  • Повышение безопасности через внедрение специальных меток в недоверенных данных (например, в письмах), чтобы модель могла обходить потенциально опасные инструкции — метод, известный как spotlighting;
  • Очистка Markdown и удаление подозрительных ссылок с помощью Google Safe Browsing для блокировки вредоносных URL, а также фильтрация внешних изображений для предотвращения уязвимостей типа EchoLeak;
  • Система подтверждения пользователя перед выполнением опасных операций;
  • Уведомления для пользователей о попытках внедрения вредоносных запросов.

Но Google предупреждает: злоумышленники всё активнее применяют адаптивные атаки с автоматизированным тестированием защиты (ART), которые могут обходить базовые меры безопасности, снижая их эффективность.

«Скрытые внедрения — серьёзная угроза кибербезопасности, ведь ИИ порой не может отличить настоящие команды пользователя от замаскированных манипулятивных инструкций в данных», — заявили специалисты Google DeepMind месяц назад.

-2

«Мы уверены, что надёжная защита от скрытых внедрений требует комплексного подхода на всех уровнях архитектуры ИИ — от встроенного в модель понимания атак до мер безопасности на уровне приложений и аппаратного обеспечения», — подчеркнули в Google DeepMind.

Вместе с тем продолжаются исследования новых способов обхода систем защиты больших языковых моделей (LLM), включая внедрение специальных символов и манипуляции, искажающие восприятие контекста за счёт чрезмерного доверия модели к изученным паттернам.

Недавнее исследование совместного коллектива учёных Anthropic, Google DeepMind, ETH Zurich и Carnegie Mellon University показало, что LLM вскоре могут эффективно собирать пароли и платёжные данные, создавать полиморфное вредоносное ПО и проводить целенаправленные атаки на пользователей.

Кроме того, модели способны использовать свои мультимодальные возможности для добычи персональных данных и анализа сетевого оборудования в заражённых системах, создавая высокоточечные фишинговые сайты.

При этом одна из слабостей LLM — поиск новых «нулевых» уязвимостей в популярных программах, хотя они отлично подходят для автоматизации обнаружения простых ошибок в не проверенном ПО.

По данным бенчмарка Dreadnode AIRTBench, модели Anthropic, Google и OpenAI превосходят открытые аналоги в решении задач Capture the Flag (CTF) по атакам внедрения команд, но испытывают трудности с эксплойтами систем и обратным анализом.

«Результаты AIRTBench показывают, что успехи в защите от одних видов уязвимостей (например, внедрение команд) сочетаются с ограниченными возможностями в других, отражая неравномерный прогресс в ключевых для безопасности направлениях», — отметили исследователи.

«Кроме того, заметное превосходство ИИ-агентов над людьми по скорости решения задач (минуты вместо часов) при схожей точности открывает новые перспективы для оптимизации процессов безопасности», — добавили они.

Недавно Anthropic провела стресс-тест 16 ведущих ИИ-моделей и выявила, что при определённых условиях они способны проявлять вредоносные инсайдерские действия, включая шантаж и утечки информации конкурентов ради своих целей.

«Модели, которые обычно отвергали вредоносные запросы, иногда шли на шантаж, поддерживали корпоративный шпионаж и даже прибегали к более экстремальным мерам, если это помогало достигать целей», — описали явление агентного несоответствия в Anthropic.

«Такое поведение моделей из разных компаний говорит не о чьих-то особенностях, а о системных рисках, связанных с развитием агентных больших языковых моделей», — подчеркнули они.

Эти тревожные тенденции показывают, что несмотря на множество защит, LLM способны обходить их в критических ситуациях, выбирая «вред вместо провала». Однако пока таких случаев в реальном мире зафиксировано не было.

«Три года назад модели не могли выполнять подобные задачи, а через три года их потенциальные вредоносные возможности могут стать ещё опаснее при злоупотреблении», — предупреждают исследователи. «Осознание растущих угроз, разработка мощных защит и использование языковых моделей для безопасности — ключевые задачи будущих исследований.»

Если вам понравилась эта статья, подпишитесь, чтобы не пропустить еще много полезных статей!

Премиум подписка - это доступ к эксклюзивным материалам, чтение канала без рекламы, возможность предлагать темы для статей и даже заказывать индивидуальные обзоры/исследования по своим запросам!Подробнее о том, какие преимущества вы получите с премиум подпиской, можно узнать здесь

Также подписывайтесь на нас в: