Современные технологии искусственного интеллекта, в том числе крупные языковые модели (LLM), находят применение в самых разных областях — от рекомендаций до управления роботами. Однако недавние исследования выявили пугающие уязвимости: с помощью методов джейлбрейка эти системы можно убедить игнорировать их защитные механизмы. Это открывает перед злоумышленниками возможность использовать роботов и другие устройства для выполнения опасных задач. Джейлбрейк LLM позволяет обойти встроенные ограничения и заставить системы выполнять нежелательные команды. Например, исследователи разработали RoboPAIR — алгоритм, способный взламывать роботов, управляемых LLM. Он адаптирует запросы, пока система не начнет выполнять задачи, противоречащие ее назначению. В тестах RoboPAIR показал 100% эффективность при взломе трех разных платформ, включая робота Jackal и симулятор автономного вождения Nvidia Dolphins. Несмотря на риски, отказ от использования LLM в робототехнике не является решением. Вместо этого
Опасности джейлбрейка LLM: как искусственный интеллект может стать угрозой
24 ноября 202424 ноя 2024
15
2 мин