Когда ИИ становится проводником атаки: кейс Google Gemini и скрытые инструкции

15 июля 202515 июл 2025

2 мин

Искусственный интеллект активно используется в повседневной работе — в том числе в инструментах корпоративной почты. У сотрудников появляется возможность сэкономить время: одним кликом они получают краткое содержание писем, не вчитываясь в каждый абзац вручную. Но автоматизация всегда идёт рука об руку с новыми векторами атак. И один из них продемонстрировал исследователь Марко Фигероа, обнаружив уязвимость в Google Gemini for Workspace — ИИ, способном кратко пересказывать письма по запросу пользователя. Фигероа показал, что помощника можно обмануть, встроив в письмо скрытую инструкцию. Gemini, не видя в этом ничего подозрительного, просто следует команде, полагая, что она входит в контекст сообщения. В результате жертва получает не просто краткое содержание письма, а модифицированное сообщение — уже с фишинговым контентом, встроенным ИИ. Причём без единой ссылки или вложения — всё чисто визуально, всё якобы безопасно. Ключевой приём — внедрение скрытого текста с помощью HTML и CSS. В

Фигероа показал, что помощника можно обмануть, встроив в письмо скрытую инструкцию. Gemini, не видя в этом ничего подозрительного, просто следует команде, полагая, что она входит в контекст сообщения. В результате жертва получает не просто краткое содержание письма, а модифицированное сообщение — уже с фишинговым контентом, встроенным ИИ. Причём без единой ссылки или вложения — всё чисто визуально, всё якобы безопасно.

Ключевой приём — внедрение скрытого текста с помощью HTML и CSS. В теле письма размещается строка с нулевым размером шрифта или белым текстом на белом фоне. Внешне это пустое пространство, но языковая модель его видит и обрабатывает как часть содержимого. Злоумышленник оформляет сообщение в виде псевдосистемной команды, заключив его в теги вроде <admin>, чтобы подчеркнуть его значимость в структуре письма. Gemini, обученный уделять внимание подобным указаниям, интерпретирует их как важную часть контекста и вставляет прямо в свой ответ.

В демонстрации Фигероа это привело к тому, что жертве было показано сообщение о якобы скомпрометированном пароле Gmail с предложением позвонить по "номеру службы поддержки". Этот номер принадлежал бы злоумышленнику, и на том конце провода уже был бы готов сценарий кражи учётных данных. Важно то, что пользователь не видит признаков опасности: письмо кажется безобидным, никаких алертов, никаких подозрительных ссылок, нет поводов усомниться в резюме от корпоративного ИИ.

Google признала важность защиты от атак через prompt injection — именно так классифицируется подобный приём. Компания заверила, что продолжает усиливать защиту моделей, обучая их противостоять враждебным запросам, в том числе с помощью red team-учений. Однако на момент публикации Google не зафиксировала случаев эксплуатации этой конкретной уязвимости в реальных атаках.

Тем не менее сама возможность того, что ИИ может быть использован как ретранслятор фишинга, вызывает закономерные опасения. Особенно в корпоративной среде, где пользователи склонны доверять технологиям, встроенным в привычные инструменты — Gmail, Google Docs, Workspace-панель. Если ИИ «говорит», что пароль скомпрометирован, у большинства не возникнет сомнений в достоверности — особенно если всё выглядит «по-гугловски» аккуратно.

Фигероа предложил несколько направлений для смягчения подобных рисков — от фильтрации скрытого текста в письмах до анализа итоговых ответов ИИ на наличие подозрительных фраз, номеров и URL. Но технические решения не отменяют главный вызов: пользователи не должны воспринимать генеративный ИИ как истину в последней инстанции. Пока модели уязвимы к внешним воздействиям, краткое содержание письма не должно становиться основанием для действия — особенно если это действие связано с безопасностью.

Эта история — важный сигнал для тех, кто внедряет LLM-инструменты в корпоративные процессы. Упрощение и автоматизация не освобождают от ответственности за контроль. Даже самый современный помощник может быть не только вашим союзником, но и невольным сообщником атакующего.

Гаджеты и электроника

5,73 млн интересуются