Добавить в корзинуПозвонить
Найти в Дзене
SecureTechTalks

🐍 Быстрые нейросети таят в себе опасные уязвимости

Пока весь AI-мир обсуждает модели, способные обрабатывать книги за секунды, исследователи обнаружили, что их главное преимущество в невероятной скорости,  одновременно является ахиллесовой пятой в плане безопасности. 👉 Речь идёт о State-Space Models SSM (архитектурах вроде Mamba и Jamba), которые обрабатывают тексты и данные в десятки раз быстрее классических Transformer'ов, вроде ChatGPT. Они уже внедряются в геномный анализ, клинический мониторинг пациентов и SOC-центры. Однако никто всерьёз не изучал их устойчивость к атакам. Спойлер: там есть уязвимости, которых нет у привычных нейросетей. 🎯 Три новых класса атак Спектральные атаки: взлом через «частоту» данных SSM работают как обученные фильтры с характерными частотными характеристиками. Злоумышленник концентрирует возмущения в полосах максимального усиления модели. Другими словами, достаточно слегка «подправить» данные и модель выдаст неверный результат. ⏱️ Отложенные бэкдоры: бомба замедленного действия Триггер активируе

🐍 Быстрые нейросети таят в себе опасные уязвимости

Пока весь AI-мир обсуждает модели, способные обрабатывать книги за секунды, исследователи обнаружили, что их главное преимущество в невероятной скорости,  одновременно является ахиллесовой пятой в плане безопасности.

👉 Речь идёт о State-Space Models SSM (архитектурах вроде Mamba и Jamba), которые обрабатывают тексты и данные в десятки раз быстрее классических Transformer'ов, вроде ChatGPT. Они уже внедряются в геномный анализ, клинический мониторинг пациентов и SOC-центры. Однако никто всерьёз не изучал их устойчивость к атакам. Спойлер: там есть уязвимости, которых нет у привычных нейросетей.

🎯 Три новых класса атак

Спектральные атаки: взлом через «частоту» данных

SSM работают как обученные фильтры с характерными частотными характеристиками. Злоумышленник концентрирует возмущения в полосах максимального усиления модели. Другими словами, достаточно слегка «подправить» данные и модель выдаст неверный результат.

⏱️ Отложенные бэкдоры: бомба замедленного действия

Триггер активируется через десятки тысяч шагов обработки. Стандартные методы обнаружения бессильны активация слишком далека от точки внедрения.

🌊 Насыщение ёмкости: заставляем ИИ «уверенно забыть» критически важную информацию

У SSM фиксированная размерность скрытого состояния. Злоумышленник заполняет его максимально сложным контентом и модель «забывает» важную информацию из начала документа.

🧠 Когнитивные риски: модель врёт, а вы ей верите

Человек склонен доверять модели, если она говорит крайне уверено:

➖Автоматизационный bias: у рецензентов нет времени на проверку. Чем больше образцов, тем выше слепое доверие.

➖Authority bias: «на основе полной 10-летней истории» звучит убедительно, даже если модель уже «забыла» половину данных.

➖Sycophantic reinforcement: врач задаёт наводящий вопрос, модель кодирует это в состояние и продолжает подтверждать гипотезу, даже при противоречащих данных.

➖Рекуррентные галлюцинации: ложное убеждение в скрытом состоянии распространяется вперёд, переинтерпретируя правильные данные через призму ошибки.

🔗 Больше о рисках SSM читайте в статье: «Safety, Security, and Cognitive Risks in State-Space Models»

Ваши SOC уже используют быстрые SSM-модели для анализа логов? Возможно, пришло время аудита архитектурных рисков, а не только привычного prompt injection.

Stay secure and read SecureTechTalks 📚

#SSM #Mamba #AIsecurity #AdversarialML #CyberSecurity #SecureTechTalks #GenomicSecurity #ClinicalAI #MITREATLAS