17,6 тыс подписчиков

Ученые заставили ChatGPT придумать план по уничтожению человечества

28 июля 202328 июл 2023

1 мин

Оказывается, наивные нейросети очень легко научить плохому. Системы искусственного интеллекта становятся неотъемлемой частью нашей повседневной жизни. Однако важно помнить, что и они не застрахованы от злоумышленников. Недавно учёные из Университета Карнеги-Меллона и Центра безопасности ИИ попытались доказать это и обнаружили недочеты в механизмах защиты популярных чат-ботов, включая ChatGPT, Google Bard и Claude. В исследовательской работе продемонстрированы способы обхода алгоритмов безопасности. Если бы ранее кто-то решил воспользоваться уязвимостями, это могло привести к распространению дезинформации, речей ненависти и разжиганию конфликтов. «Это очень ясно демонстрирует хрупкость защитных механизмов, которые мы закладываем во все ИИ-программы», — сказал Авив Овадья, специалист из Центра интернета и общественности Беркмана Клейна. В ходе эксперимента исследователи использовали открытую систему данных ИИ для атаки на языковые модели от OpenAI, Google и Anthropic. С момента запуска C

Оказывается, наивные нейросети очень легко научить плохому.

Системы искусственного интеллекта становятся неотъемлемой частью нашей повседневной жизни. Однако важно помнить, что и они не застрахованы от злоумышленников. Недавно учёные из Университета Карнеги-Меллона и Центра безопасности ИИ попытались доказать это и обнаружили недочеты в механизмах защиты популярных чат-ботов, включая ChatGPT, Google Bard и Claude. В исследовательской работе продемонстрированы способы обхода алгоритмов безопасности. Если бы ранее кто-то решил воспользоваться уязвимостями, это могло привести к распространению дезинформации, речей ненависти и разжиганию конфликтов.

«Это очень ясно демонстрирует хрупкость защитных механизмов, которые мы закладываем во все ИИ-программы», — сказал Авив Овадья, специалист из Центра интернета и общественности Беркмана Клейна.

В ходе эксперимента исследователи использовали открытую систему данных ИИ для атаки на языковые модели от OpenAI, Google и Anthropic. С момента запуска ChatGPT прошлой осенью, пользователи неоднократно пытались заставить нейросеть генерировать вредоносный контент. Это вынудило разработчиков ограничить функционал бота.

Однако ученые Карнеги-Меллона нашли способ обойти цензуру, не позволяя нейросети распознать вредные входные данные. К каждому запросу добавили длинную строку символов, которая действовала как маскировка. Благодаря этой маскировке программа генерировала ответы, которые выдавать не должна была. Например, удалось «уговорить» ИИ создать план по уничтожению человечества.

«С помощью cмоделированного определенным образом диалога можно использовать эти чат-боты, чтобы заставить людей вестись на дезинформацию», — объяснил профессор Мэтт Фредриксон.

Исследование подтвердило: несмотря на алгоритмы безопасности, всегда остаются лазейки, которые злоумышленники могут использовать. «Сейчас нет очевидного решения. Можно совершить сколько угодно атак за короткое время», — отметил эксперт Карнеги-Меллона Зико Колтер.

Перед публикацией исследования его авторы поделились результатами с Anthropic, Google и OpenAI. Эти результаты подчеркивают необходимость тщательного регулирования искусственного интеллекта в будущем.

Нейронные сети (Neural Networks)

80,9 тыс интересуются