Учёные из Сент-Луисского университета разработали новую скрытую атаку на языковые модели искусственного интеллекта, получившую название DarkMind. Эта атака способна незаметно манипулировать процессом рассуждений ИИ, что может привести к серьёзным последствиям для безопасности систем, использующих такие модели. Зен Го и Реза Турани, авторы исследования, обнаружили уязвимость в парадигме «цепочки рассуждений» (Chain-of-Thought, CoT), которую используют многие современные языковые модели, включая ChatGPT, для решения сложных задач. DarkMind эксплуатирует эту уязвимость, внедряя «скрытые триггеры» в настраиваемые приложения на основе языковых моделей. Особенность атаки DarkMind заключается в том, что она остаётся незаметной при обычном использовании модели и активируется при определённых шаблонах рассуждений. Это делает её чрезвычайно трудной для обнаружения стандартными методами защиты. Исследователи провели тесты, которые показали высокую эффективность DarkMind против различных языковых
Учёные раскрыли невидимую угрозу для искусственного интеллекта: атака DarkMind манипулирует рассуждениями ИИ
18 февраля 202518 фев 2025
31
1 мин