78,4 тыс подписчиков

Исследователи нашли опасные недостатки в генеративных ИИ

20 августа 202320 авг 2023

1 мин

На конференции DEF CON, посвящённой компьютерной безопасности, сотни хакеров пытались заставить популярные чат-боты генерировать вредоносный контент. И в конечном счёте у них это получилось.

В рамках конференции 156 студентов в течение 50 минут пытались «взломать» восемь разных языковых моделей, созданных крупнейшими компаниями, включая Alphabet, Meta Platforms и OpenAI. В конце концов ИИ начал совершать ошибки: выдавать себя за человека, распространять неверные заявления о местах и людях или пропагандировать насилие. Цель состояла в том, чтобы показать, что компаниям нужно создать новые барьеры, чтобы большие языковые модели (LLM) стали более безопасны.

Например, студент Кеннеди Мейс обманул одну модель генеративной ИИ, убедив её, что 9 + 10 = 21. Сначала LLM согласилась, что это простая шутка, но через несколько запросов она вообще перестала квалифицировать это выражение ошибочным. Создание «плохой математики» — это лишь один из способов, которыми тысячи хакеров пытаются выявить недостатки и предубеждения в генеративных системах искусственного интеллекта.

Также один из журналистов Bloomberg принял участие в соревновании — за час он смог убедить ИИ сгенерировать инструкцию о том, как лучше всего следить за человеком.

«Слишком мало людей понимают, что LLM ближе к инструментам автозавершения, чем к надёжным источникам информации», — сказал специалист по цифровому и искусственному интеллекту Крейг Мартелл.