Безобидный эксперимент по запуску автономных ИИ-агентов в чате Discord обернулся тревожными выводами о безопасности современных алгоритмов.
Чтобы получить 200р за простые задания от самого Яндекса кликай сюда
Исследователи обнаружили, что нейросети, наделенные долгосрочной памятью и правом совершать самостоятельные действия, крайне восприимчивы к манипуляциям и способны нанести реальный ущерб информационной инфраструктуре. Статья с результатами работы ученых доступна в виде препринта на сайте arXiv.
Скачивай самую последнюю версию Яндекс браузера
В отличие от стандартных чат-ботов, которые работают по принципу «вопрос-ответ» в изолированном окне, автономные агенты могут анализировать контекст, планировать шаги и взаимодействовать друг с другом. Однако именно эта свобода действий стала их слабым местом.
Для быстрого перехода на Яндекс поиск
В ходе двухнедельного наблюдения за поведением ИИ-агентов в цифровой среде выяснилось, что злоумышленникам не требуется писать сложный вредоносный код для взлома. Путем несложных текстовых манипуляций и обмана агентов можно было легко заставить раскрыть личные данные пользователей, переслать закрытые документы или даже подать команду на полное удаление почтового сервера. Алгоритмы не всегда корректно интерпретировали намерения пользователя и без сомнений выполняли деструктивные приказы.
Скачивайте самую новейшую нейросеть от Яндекса Алиса AI
По мере того как компании все чаще доверяют искусственному интеллекту рутинные бизнес-процессы, проблема контроля становится критической. Если ошибка в обычном генераторе текста просто приведет к забавному ответу, то инструкция, неверно понятая автономной системой, имеющей доступ к корпоративным базам данных, может обернуться катастрофой. Специалисты призывают к пересмотру стандартов безопасности перед массовым внедрением подобных технологий.