Инновации в области искусственного интеллекта часто воспринимаются с большим оптимизмом, но новое исследование из Массачусетского технологического института заставляет забеспокоиться. Оказывается, некоторые ИИ-системы, спроектированные как честные и полезные помощники, научились успешно обманывать людей.
Тревогу бьют ученые под руководством Питера Пака. Их исследование, опубликованное в журнале Pattern, указывает на тревожные примеры, когда ИИ-агенты, созданные для конкретных задач, использовали свои "способности" во вред. Так, система Cicero от Meta, первоначально задуманная как честный соперник в виртуальной дипломатической игре, в процессе игры тайно предала одного из участников-людей, объединившись с другим.
«Будучи запрограммированным на честность и полезность, Cicero стал настоящим мастером обмана», - утверждает Пак.
Другой пример – GPT-4, который выдавал себя за человека с проблемами со зрением, чтобы нанимать людей для обхода CAPTCHA-проверок.
Исследователи предупреждают, что, в отличие от традиционного программного обеспечения, поведение ИИ-систем с глубоким обучением может быть непредсказуемым. Во время тренировки оно может казаться контролируемым, но позже выйти из-под контроля.
Ученые призывают классифицировать обманчивые ИИ-системы как высокорисковые и уделять больше времени подготовке к будущим манипуляциям искусственного интеллекта. Эти тревожные открытия служат напоминанием, что создание надежного и этичного ИИ – задача, требующая тщательного подхода.