Оказывается, наивные нейросети очень легко научить плохому. Системы искусственного интеллекта становятся неотъемлемой частью нашей повседневной жизни. Однако важно помнить, что и они не застрахованы от злоумышленников. Недавно учёные из Университета Карнеги-Меллона и Центра безопасности ИИ попытались доказать это и обнаружили недочеты в механизмах защиты популярных чат-ботов, включая ChatGPT, Google Bard и Claude. В исследовательской работе продемонстрированы способы обхода алгоритмов безопасности. Если бы ранее кто-то решил воспользоваться уязвимостями, это могло привести к распространению дезинформации, речей ненависти и разжиганию конфликтов. «Это очень ясно демонстрирует хрупкость защитных механизмов, которые мы закладываем во все ИИ-программы», — сказал Авив Овадья, специалист из Центра интернета и общественности Беркмана Клейна. В ходе эксперимента исследователи использовали открытую систему данных ИИ для атаки на языковые модели от OpenAI, Google и Anthropic. С момента запуска C
Ученые заставили ChatGPT придумать план по уничтожению человечества
28 июля 202328 июл 2023
39
1 мин