Белые хакеры и специалисты по информационной безопасности в последние месяцы стали всё чаще подвергать различные большие языковые модели изощрённым попыткам взлома и обхода ограничений, заложенных в них разработчиками. Это делается, чтобы выявить и сообщить за денежные вознаграждения об обнаруженных уязвимостях, о чём накануне рассказали в своём новом материале журналисты издания Financial Times. По словам анонимного белого хакера, скрывающегося под псевдонимом Pliny the Promter, ему требуется всего около 30 минут, чтобы взломать самые мощные и актуальные на сегодняшний день модели искусственного интеллекта. Журналисты отмечают, что именно этот хакер смог заставить модель Llama 3 предоставить ему рецепт напалма, а модель Grok Илона Маска — восторгаться Гитлером. Ещё более интересным моментом в этой истории является то, что хакер также смог запустить на платформе американской компании OpenAI кастомную модель godmodeGPT, которая всем заинтересованным пользователям начала рассылать рекоме
Эксперты предупреждают, что белым хакерам всё чаще удается эффективно взламывать крупные модели ИИ
24 июня 202424 июн 2024
2 мин