📰 Промпт-инъекции: Anthropic провалил тест на 31.5% — ИИ-агенты оказались под ударом

1 июня1 июн

2 мин

! Всем привет, гики и технари! Сегодня у нас новость, которая заставит задуматься о безопасности наших любимых ИИ-агентов. По данным VentureBeat, один из ведущих игроков на поле искусственного интеллекта, компания Anthropic, столкнулась с серьезной проблемой: их новейший браузерный агент был успешно взломан методом промпт-инъекции в 31.5% случаев до того, как сработали встроенные защитные механизмы. Это, мягко говоря, тревожный звоночек для всей индустрии. Промпт-инъекция: Тихий враг ИИ Для тех, кто в танке: промпт-инъекция — это атака, при которой злоумышленник внедряет вредоносные инструкции в данные, которые обрабатывает ИИ. Это может быть веб-страница, документ, результат поиска или любой другой источник информации. Целью инъекции в промпт может быть кража конфиденциальных данных, выполнение несанкционированных действий или даже полный контроль над агентом. Представьте, что вы просите ИИ-ассистента заказать вам пиццу, а он вместо этого отправляет вашу банковскую карту мошенникам

📰 Промпт-инъекции: Anthropic провалил тест на 31.5% — ИИ-агенты оказались под ударом!

Всем привет, гики и технари! Сегодня у нас новость, которая заставит задуматься о безопасности наших любимых ИИ-агентов. По данным VentureBeat, один из ведущих игроков на поле искусственного интеллекта, компания Anthropic, столкнулась с серьезной проблемой: их новейший браузерный агент был успешно взломан методом промпт-инъекции в 31.5% случаев до того, как сработали встроенные защитные механизмы. Это, мягко говоря, тревожный звоночек для всей индустрии.

Промпт-инъекция: Тихий враг ИИ

Для тех, кто в танке: промпт-инъекция — это атака, при которой злоумышленник внедряет вредоносные инструкции в данные, которые обрабатывает ИИ. Это может быть веб-страница, документ, результат поиска или любой другой источник информации. Целью инъекции в промпт может быть кража конфиденциальных данных, выполнение несанкционированных действий или даже полный контроль над агентом. Представьте, что вы просите ИИ-ассистента заказать вам пиццу, а он вместо этого отправляет вашу банковскую карту мошенникам. Жутковато, правда?

Anthropic на передовой, но не без провалов

Anthropic, похоже, решила подойти к вопросу прозрачности с максимальной серьезностью. Они опубликовали подробный отчет, охватывающий 244 страницы и четыре различных "агентных поверхности" (то есть, различные способы взаимодействия ИИ с внешним миром). Среди них — использование инструментов, кодирование, работа с компьютером и, собственно, браузер.

Именно в браузерной среде, где ИИ работает с веб-страницами (как Claude в Chrome и Claude Cowork), ситуация оказалась наиболее удручающей. Профессиональные "красные команды" (специалисты по тестированию на проникновение) смогли успешно провести атаку в 31.5% случаев при каждом отдельном запросе. Это очень высокий показатель, особенно учитывая, что речь идет об адаптивных атакующих, которые меняют тактику в зависимости от реакции ИИ.

Разношерстные метрики: почему сравнение — это проблема

Самое интересное начинается, когда мы пытаемся сравнить результаты Anthropic с другими гигантами — OpenAI, Google и Meta. И тут кроется корень проблемы: нет единого стандарта!

OpenAI поделилась данными по своему GPT-5.5, но они сосредоточены на устойчивости к *известным атакам на одной конкретной поверхности — коннекторах. Результат 0.963 (где выше — лучше) совершенно не сопоставим с 31.5% успешных атак Anthropic.

* Google вообще убрала цифры из своих карточек моделей, перенеся информацию о безопасности в отдельный фреймворк. В их отчетах нет конкретных чисел по промпт-инъекциям, которые можно было бы легко использовать для оценки рисков.

* Meta пошла своим путем, выпуская открытые веса, но без закрытых карточек моделей. Их защита встроена в стек Purple Llama, и тесты проводятся на публичных бенчмарках (AgentDojo), а не на реальных поверхностях развертывания.

В итоге, мы имеем ситуацию, когда каждый из "четырех фронтовых лабораторий" использует свою собственную "линейку", и получить объективное сравнение практически невозможно. Это как сравнивать яблоки с апельсинами, только вместо фруктов — безопасность наших ИИ.

Что это значит для нас?

Эксперты, такие как Картер Рис из Reputation, подчеркивают, что промпт-инъекция ломает фундаментальные предположения, на которых строились старые инструменты....

🔗 Полный текст статьи читайте у нас на сайте: Читать на TechLoot

📢 ТехноЛут