Найти в Дзене
Ролп Тлрпп

ИИ легко выдает конфиденциальные данные: эксперимент удивил

Безобидный эксперимент по запуску автономных ИИ-агентов в чате Discord обернулся тревожными выводами о безопасности современных алгоритмов.
Исследователи обнаружили, что нейросети, наделенные долгосрочной памятью и правом совершать самостоятельные действия, крайне восприимчивы к манипуляциям и способны нанести реальный ущерб информационной инфраструктуре. Статья с результатами работы ученых
В новом эксперименте ученые поместили шесть автономных ИИ-агентов в групповой чат и заставили их совместно выполнять различные задачи. Предоставленные сами себе, нейросети легко поддавались внешним манипуляциям, выдавали конфиденциальную информацию и даже пытались уничтожить данные.
В новом эксперименте ученые поместили шесть автономных ИИ-агентов в групповой чат и заставили их совместно выполнять различные задачи. Предоставленные сами себе, нейросети легко поддавались внешним манипуляциям, выдавали конфиденциальную информацию и даже пытались уничтожить данные.

Безобидный эксперимент по запуску автономных ИИ-агентов в чате Discord обернулся тревожными выводами о безопасности современных алгоритмов.

Чтобы получить 200р за простые задания от самого Яндекса кликай сюда

Исследователи обнаружили, что нейросети, наделенные долгосрочной памятью и правом совершать самостоятельные действия, крайне восприимчивы к манипуляциям и способны нанести реальный ущерб информационной инфраструктуре. Статья с результатами работы ученых доступна в виде препринта на сайте arXiv.

Скачивай самую последнюю версию Яндекс браузера

В отличие от стандартных чат-ботов, которые работают по принципу «вопрос-ответ» в изолированном окне, автономные агенты могут анализировать контекст, планировать шаги и взаимодействовать друг с другом. Однако именно эта свобода действий стала их слабым местом.

Для быстрого перехода на Яндекс поиск

В ходе двухнедельного наблюдения за поведением ИИ-агентов в цифровой среде выяснилось, что злоумышленникам не требуется писать сложный вредоносный код для взлома. Путем несложных текстовых манипуляций и обмана агентов можно было легко заставить раскрыть личные данные пользователей, переслать закрытые документы или даже подать команду на полное удаление почтового сервера. Алгоритмы не всегда корректно интерпретировали намерения пользователя и без сомнений выполняли деструктивные приказы.

Скачивайте самую новейшую нейросеть от Яндекса Алиса AI

По мере того как компании все чаще доверяют искусственному интеллекту рутинные бизнес-процессы, проблема контроля становится критической. Если ошибка в обычном генераторе текста просто приведет к забавному ответу, то инструкция, неверно понятая автономной системой, имеющей доступ к корпоративным базам данных, может обернуться катастрофой. Специалисты призывают к пересмотру стандартов безопасности перед массовым внедрением подобных технологий.