Хакеры научились ломать мышление ИИ изнутри! Учёные из Университета Сент-Луиса придумали атаку «DarkMind», которая может подменять рассуждения ИИ на лету, и причём так, что сам ИИ даже не в курсе, что его мозги уже затуманены. Современные языковые модели (GPT-4o, O1, LLaMA-3) используют Chain-of-Thought (CoT) – систему пошагового логического вывода. Хакеры нашли способ незаметно внедрять бэкдор, который «спит» в модели, пока не наступает нужный момент. В отличие от других атак, DarkMind не требует перетренировки модели, а просто встраивается в код кастомных моделей (например, в GPT Store). Обычная защита вообще не видит этот баг, потому что он активируется только при определённой последовательности логических шагов. Чем умнее модель, тем легче её сломать. Да-да, чем лучше работает логика ИИ, тем проще её подменить. Можно даже заставить ИИ считать 2+2=5 и он даже не будет подозревать, что что-то не так. А также подменять рассуждения, вставлять скрытые команды, которые активируются только на спец-запросы. Итог: Безопасность ИИ идет по пизде.
3 недели назад