21 подписчик

🧬 VectorSmuggle: данные научились прятать внутри embedding’ов

СегодняСегодня

2 мин

Большинство AI-систем относятся к embedding как к безопасному промежуточному формату, т.к. Вектор не выглядит как текст и не содержит очевидного payload. Поэтому embedding’и спокойно: 🔹 передаются между сервисами 🔹 индексируются в vector DB 🔹 попадают в shared storage 🔹 используются в retrieval pipeline Практически никто не анализирует их содержимое с точки зрения безопасности. А зря. ⚙️ Что такое VectorSmuggle Исследователи показали, что внутри embedding можно скрытно кодировать произвольные данные, сохраняя при этом его внешнюю «нормальность». Технически идея строится вокруг особенностей embedding space. LLM и embedding-модели преобразуют текст в высокоразмерные векторы. При этом небольшие изменения отдельных компонент обычно не ломают semantic similarity. Именно этот запас устойчивости злоумышленники используют, как covert channel. Часть измерений embedding’а начинает хранить скрытый payload, который можно позже извлечь специальным декодером. Со стороны embedding продолжа

Большинство AI-систем относятся к embedding как к безопасному промежуточному формату, т.к. Вектор не выглядит как текст и не содержит очевидного payload.

Поэтому embedding’и спокойно:

🔹 передаются между сервисами

🔹 индексируются в vector DB

🔹 попадают в shared storage

🔹 используются в retrieval pipeline

Практически никто не анализирует их содержимое с точки зрения безопасности. А зря.

⚙️ Что такое VectorSmuggle

Исследователи показали, что внутри embedding можно скрытно кодировать произвольные данные, сохраняя при этом его внешнюю «нормальность».

Технически идея строится вокруг особенностей embedding space.

LLM и embedding-модели преобразуют текст в высокоразмерные векторы. При этом небольшие изменения отдельных компонент обычно не ломают semantic similarity.

Именно этот запас устойчивости злоумышленники используют, как covert channel.

Часть измерений embedding’а начинает хранить скрытый payload, который можно позже извлечь специальным декодером.

Со стороны embedding продолжает выглядеть легитимно:

🔹 проходит similarity search

🔹 нормально индексируется

🔹 не вызывает ошибок в vector pipeline

Но внутри уже находится скрытая информация.

🧪 Реализация

Схема выглядит довольно элегантно, сначала данные кодируются внутрь embedding-вектора через модификацию отдельных dimensions. После этого embedding отправляется в обычную vector infrastructure: FAISS, Pinecone, Milvus или другую vector DB.

Позже получатель извлекает embedding и декодирует скрытый payload обратно в исходные данные. Ключевая проблема в том, что embedding-инфраструктура почти не имеет механизмов проверки:

🔹 что именно хранится внутри вектора

🔹 насколько embedding отклоняется от нормального распределения

🔹 используется ли vector space как covert storage

Для системы это просто массив float-значений.

🧨 Опасность ⚠️

На практике VectorSmuggle открывает довольно неприятные сценарии.

Например:

🔹 скрытая передача данных через RAG-pipeline

🔹 covert communication между агентами

🔹 хранение payload внутри vector DB

🔹 обход DLP/контент-фильтрации

🔹 скрытая эксфильтрация информации через embedding API

Особенно интересно выглядит последний пункт. Многие security-системы анализируют текст, файлы или сетевой трафик, но практически не смотрят на embedding-space как на потенциальный канал утечки данных, хотя именно туда AI-инфраструктура сейчас начинает переносить всё больше информации.

🔗 Исследование: https://arxiv.org/abs/2505.12540

Stay secure and read SecureTechTalks 📚

#кибербезопасность #AI #LLM #Embedding #VectorDB #RAG #DataSecurity #AppSec #AIrisks #SecureTechTalks