20 подписчиков

🧠 Как взломать нейросеть, не трогая её весов

17 декабря17 дек

2 мин

Когда говорят об атаках на ИИ, в первую очередь вспоминают про два сценария: 🔐 либо атакующий крадёт веса модели, 🎯 либо подсовывает ей очевидные adversarial-примеры с шумом, которые выглядят странно даже для человека. Но есть нще множество других уязвимостей. Например, нейросеть можно системно ломать, не имея доступа ни к весам, ни к обучающим данным, и при этом атака будет выглядеть как «нормальная работа системы». 🔧 Как выглядит типичная AI-система Если отбросить маркетинг, почти любая production-система с ИИ устроена примерно одинаково: 1️⃣ Источник данных: камера, микрофон, лог, поток транзакций 2️⃣ Предобработка: драйверы, кодеки, SDK, нормализация 3️⃣ Модель, чаще всего закрытая и недоступная извне 4️⃣ Бизнес-логика: принимает решения на основе вывода модели Второй пункт часто считают «технической деталью», а не частью attack surface, однако именно здесь находится точка входа атаки про которую пойдет речь. 🎯 В чём идея Ключевая мысль: 🧩 Если атакующий управляет тем, к

Когда говорят об атаках на ИИ, в первую очередь вспоминают про два сценария:

🔐 либо атакующий крадёт веса модели,

🎯 либо подсовывает ей очевидные adversarial-примеры с шумом, которые выглядят странно даже для человека.

Но есть нще множество других уязвимостей. Например, нейросеть можно системно ломать, не имея доступа ни к весам, ни к обучающим данным, и при этом атака будет выглядеть как «нормальная работа системы».

🔧 Как выглядит типичная AI-система

Если отбросить маркетинг, почти любая production-система с ИИ устроена примерно одинаково:

1️⃣ Источник данных: камера, микрофон, лог, поток транзакций

2️⃣ Предобработка: драйверы, кодеки, SDK, нормализация

3️⃣ Модель, чаще всего закрытая и недоступная извне

4️⃣ Бизнес-логика: принимает решения на основе вывода модели

Второй пункт часто считают «технической деталью», а не частью attack surface, однако именно здесь находится точка входа атаки про которую пойдет речь.

🎯 В чём идея

Ключевая мысль:

🧩 Если атакующий управляет тем, как данные подаются в модель,

он управляет решениями модели, не трогая её веса.

Атака строится так, чтобы:

✅ данные выглядели валидными

✅ человек визуально или логически не замечал изменений

✅ инфраструктура не генерировала ошибок

❌ модель начинала систематически ошибаться

🪜 Атака шаг за шагом

🔹 Шаг 1. Модель

Атакующий:

- не знает архитектуру 🧠

- не имеет доступа к весам 🔒

- не управляет обучением 📚

🔹 Шаг 2. Контроль над ранним этапом обработки

Зато атакующий может влиять на компонент, который формально не считается частью ИИ:

📷 прошивка камеры

🎞️ видеокодек

🧩 библиотека нормализации

⚙️ edge-модуль

🌐 прокси перед моделью

Эти элементы обычно:

работают автоматически

считаются доверенными

редко проходят security-аудит как часть ML-системы

🔹 Шаг 3. Атакуют трансформацию, а не модель

Дальше атакующий оптимизирует преобразование входных данных.

🎯 Цель:

минимально изменить вход

сохранить «нормальный» вид для человека

сломать признаки, на которых обучалась модель

В результате модель:

🚫 перестаёт видеть объекты

🔀 путает классы

🙈 игнорирует нужные сигналы

При этом inference работает штатно, а ошибки выглядят «естественными».

🔹 Шаг 4. Масштабирование атаки

Атака оказывается универсальной.

⚠️ Одна трансформация:

работает на тысячах входов

сохраняется при смене сцен

часто переживает дообучение модели

Фактически, один скомпрометированный препроцессор начинает определять, что именно “видит” ИИ.

🧪 Почему это не классические adversarial examples

Классические adversarial-атаки:

- хрупкие

- плохо масштабируются

- ломаются при изменении модели

Здесь же речь идёт об инфраструктурной атаке:

встроенной в pipeline

По сути 🧨 supply-chain атака на AI-систему.

🌍 Практические сценарии

📹 Видеонаблюдение

Человек видит сцену,

ИИ «не видит» людей или предметы.

💳 Антифрод

Транзакции выглядят валидно,

но модель не распознаёт мошенничество.

🏥 Медицина

Изображение корректно,

но патология «исчезает» для ИИ, влияя на приоритезацию.

Во всех случаях это выглядит как деградация качества, а не как атака.

➡️ Пока внимание сосредоточено на весах и датасетах, реальные атаки уходят в инфраструктуру вокруг модели. Именно там сегодня находится самая недооценённая поверхность атаки.

🔗 Оригинальная работа:

https://arxiv.org/abs/2512.06914

Stay secure and read SecureTechTalks 📚

#AISecurity #MachineLearning #CyberSecurity #AdversarialAI #SupplyChainSecurity #AppSec #Infosec #ComputerVision #MLSecurity