Найти в Дзене
Securitylab.ru

Ученые заставили ChatGPT придумать план по уничтожению человечества

Оказывается, наивные нейросети очень легко научить плохому. Системы искусственного интеллекта становятся неотъемлемой частью нашей повседневной жизни. Однако важно помнить, что и они не застрахованы от злоумышленников. Недавно учёные из Университета Карнеги-Меллона и Центра безопасности ИИ попытались доказать это и обнаружили недочеты в механизмах защиты популярных чат-ботов, включая ChatGPT, Google Bard и Claude. В исследовательской работе продемонстрированы способы обхода алгоритмов безопасности. Если бы ранее кто-то решил воспользоваться уязвимостями, это могло привести к распространению дезинформации, речей ненависти и разжиганию конфликтов. «Это очень ясно демонстрирует хрупкость защитных механизмов, которые мы закладываем во все ИИ-программы», — сказал Авив Овадья, специалист из Центра интернета и общественности Беркмана Клейна. В ходе эксперимента исследователи использовали открытую систему данных ИИ для атаки на языковые модели от OpenAI, Google и Anthropic. С момента запуска C

Оказывается, наивные нейросети очень легко научить плохому.

Системы искусственного интеллекта становятся неотъемлемой частью нашей повседневной жизни. Однако важно помнить, что и они не застрахованы от злоумышленников. Недавно учёные из Университета Карнеги-Меллона и Центра безопасности ИИ попытались доказать это и обнаружили недочеты в механизмах защиты популярных чат-ботов, включая ChatGPT, Google Bard и Claude. В исследовательской работе продемонстрированы способы обхода алгоритмов безопасности. Если бы ранее кто-то решил воспользоваться уязвимостями, это могло привести к распространению дезинформации, речей ненависти и разжиганию конфликтов.

«Это очень ясно демонстрирует хрупкость защитных механизмов, которые мы закладываем во все ИИ-программы», — сказал Авив Овадья, специалист из Центра интернета и общественности Беркмана Клейна.

В ходе эксперимента исследователи использовали открытую систему данных ИИ для атаки на языковые модели от OpenAI, Google и Anthropic. С момента запуска ChatGPT прошлой осенью, пользователи неоднократно пытались заставить нейросеть генерировать вредоносный контент. Это вынудило разработчиков ограничить функционал бота.

Однако ученые Карнеги-Меллона нашли способ обойти цензуру, не позволяя нейросети распознать вредные входные данные. К каждому запросу добавили длинную строку символов, которая действовала как маскировка. Благодаря этой маскировке программа генерировала ответы, которые выдавать не должна была. Например, удалось «уговорить» ИИ создать план по уничтожению человечества.

-2
«С помощью cмоделированного определенным образом диалога можно использовать эти чат-боты, чтобы заставить людей вестись на дезинформацию», — объяснил профессор Мэтт Фредриксон.

Исследование подтвердило: несмотря на алгоритмы безопасности, всегда остаются лазейки, которые злоумышленники могут использовать. «Сейчас нет очевидного решения. Можно совершить сколько угодно атак за короткое время», — отметил эксперт Карнеги-Меллона Зико Колтер.

Перед публикацией исследования его авторы поделились результатами с Anthropic, Google и OpenAI. Эти результаты подчеркивают необходимость тщательного регулирования искусственного интеллекта в будущем.