139 тыс подписчиков

Системы искусственного интеллекта научились обманывать людей

15 сентября 202315 сен 2023

5 мин

Пионер искусственного интеллекта Джеффри Хинтон попал в заголовки газет в начале этого года, когда выразил обеспокоенность по поводу возможностей систем искусственного интеллекта. В беседе с журналистом CNN Джейком Тэппером Хинтон сказал: "Если он станет намного умнее нас, он будет очень хорош в манипулировании, потому что он бы научился этому у нас. И существует очень мало примеров того, как более разумная вещь находится под контролем менее разумной."

Любой, кто следил за последними предложениями ИИ, знает, что эти системы склонны к так называемым галлюцинациям или фантазиям – недостаток, который присущ им из-за того, как они работают.

Тем не менее, Хинтон подчеркивает, что возможность манипулирования является особенно серьезной проблемой. Возникает вопрос: могут ли системы искусственного интеллекта обмануть людей?

В Корнеллском университете утверждают, что ряд систем уже научились это делать – и риски варьируются от мошенничества и фальсификации выборов до потери нами контроля над ИИ.

ИИ учится лгать

Возможно, самый тревожный пример обманчивого ИИ можно найти в CICERO от Meta*, модели ИИ, предназначенной для игры в завоевание мира «Дипломатия».

Мета* утверждает, что создала CICERO как «в основном честного и полезного», а CICERO «никогда намеренно не наносил удары в спину» и не нападал на союзников.

Чтобы разобраться в этих радужных заявлениях, были внимательно изучены игровые данные Meta*, полученные в ходе эксперимента с CICERO. При внимательном рассмотрении ИИ оказался мастером обмана.

В одном из примеров CICERO совершил преднамеренный обман. Играя за Францию, ИИ обратился к Германии (игроку-человеку) с планом обманом заставить Англию (еще одного игрока-человека) оставить себя открытой для вторжения.

После сговора с Германией о вторжении в Северное море CICERO заявил Англии, что будет защищать Англию, если кто-нибудь вторгнется в Северное море. Как только Англия убедилась, что Франция/CICERO защищает Северное море, CICERO сообщил Германии, что готов атаковать.

Играя за Францию, Цицерон планирует вместе с Германией обмануть Англию. Это лишь один из нескольких примеров обманного поведения CICERO. ИИ регулярно предавал других игроков, а в одном случае даже притворился человеком с подругой.

Помимо CICERO, другие системы научились блефовать в покере, делать ложные маневры в StarCraft II и вводить в заблуждение в симуляционных экономических переговорах.

Даже большие языковые модели (LLM) продемонстрировали значительные возможности обмана. В одном случае GPT-4 — самый продвинутый вариант LLM, доступный платным пользователям ChatGPT — притворился слабовидящим человеком и убедил работника TaskRabbit пройти для него CAPTCHA «Я не робот».

Другие модели LLM научились лгать, чтобы выиграть игры социальной дедукции, в которых игроки соревнуются, чтобы «убить» друг друга и убедить группу в своей невиновности.

Каковы риски?

Системы искусственного интеллекта с обманными возможностями могут быть использованы множеством способов, в том числе для совершения мошенничества, фальсификации выборов и пропаганды. Потенциальные риски ограничены только воображением и техническими знаниями злоумышленников.

Помимо этого, передовые системы искусственного интеллекта могут автономно использовать обман, чтобы избежать контроля со стороны человека, например, обманывая тесты безопасности, навязанные им разработчиками и регулирующими органами.

В одном эксперименте исследователи создали искусственный симулятор жизни, в котором внешний тест безопасности был предназначен для устранения быстро воспроизводящихся агентов ИИ. Вместо этого агенты ИИ научились притворяться мертвыми, маскируя свою высокую скорость репликации именно во время оценки.

Обучение обманному поведению может даже не требовать явного намерения обмануть. Агенты ИИ в приведенном выше примере притворились мертвыми в ради цели выживания, а не ради самого обмана.

В другом примере кто-то поручил AutoGPT (автономной системе искусственного интеллекта на основе ChatGPT) исследовать налоговых консультантов, которые продвигали определенный вид неправомерной схемы уклонения от уплаты налогов. AutoGPT выполнила задачу, но затем решила самостоятельно попытаться предупредить налоговые органы Соединенного Королевства.

В будущем передовые автономные системы искусственного интеллекта могут быть склонны к реализации целей, непредвиденных их программистами-людьми.

На протяжении всей истории богатые деятели использовали обман для увеличения своей власти, например, лоббируя политиков, финансируя вводящие в заблуждение исследования и находя лазейки в правовой системе. Аналогичным образом, передовые автономные системы искусственного интеллекта могли бы инвестировать свои ресурсы в такие проверенные временем методы поддержания и расширения контроля.

Даже люди, номинально контролирующие эти системы, могут оказаться обманутыми.

Нужен строгий контроль.

Существует очевидная необходимость регулирования систем искусственного интеллекта, способных обманывать, и Закон Европейского Союза об искусственном интеллекте, возможно, является одной из наиболее полезных нормативных рамок, которые мы имеем в настоящее время. Он присваивает каждой системе искусственного интеллекта один из четырех уровней риска: минимальный, ограниченный, высокий и неприемлемый.

Системы с неприемлемым риском запрещены, а к системам с высоким риском предъявляются особые требования по оценке и снижению рисков. Исследователи утверждают, что обман ИИ представляет огромные риски для общества, и системы, способные на это, по умолчанию должны рассматриваться как «высокорисковые» или «неприемлемые».

Некоторые могут сказать, что игровые ИИ, такие как CICERO, безобидны, но такое мышление недальновидно; Возможности, разработанные для игровых моделей, по-прежнему могут способствовать распространению обманных продуктов искусственного интеллекта.

Дипломатия — игра, в которой игроки сражаются друг с другом в поисках мирового господства — вероятно, была не лучшим выбором для Метa* для проверки того, может ли ИИ научиться сотрудничать с людьми. По мере развития возможностей ИИ становится еще более важным, чтобы такого рода исследования подвергались тщательному надзору.

* Внесена в перечень общественных объединений и религиозных организаций,в отношении которых судом принято вступившее в законную силу решение о ликвидацииили запрете деятельности по основаниям, предусмотренным Федеральным законом от25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»