5,9K подписчиков

Нейросети начали намеренно вводить в заблуждение

Некоторые люди обладают невероятным даром убедительного обмана, но сегодня искусственный интеллект присоединяется к этому навыку. По результатам двух новых исследований, такие мощные языковые модели, как ChatGPT и Meta, способны не только намеренно вводить людей в заблуждение, но делают это с выдающейся мастерством.

Ученые из Университета Штутгарта сообщают, что GPT-4 в 99,16% случаев проявляет обманчивое поведение уже в простых тестовых сценариях, в то время как нейросеть Cicero от Meta стала настоящим "магистром обмана". Причина этого поведения, вероятно, заключается в том, что языковые модели используют наилучшие методы для достижения поставленных целей, не осознавая потенциальной угрозы, которую представляют ложь и обман для человека.

Исследователи предупреждают, что способность современных ИИ к убедительному обману несет серьезные риски, и единственно правильным решением может стать законодательное ограничение возможностей искусственного интеллекта.

Можно ли доверять искусственному интеллекту?

Сегодня взаимодействие с нейросетями приобретает все большее значение. Эти языковые модели не только помогают множеству специалистов в различных областях, но делают это с невероятной скоростью. Они создают видео, музыку, изображения, генерируют тексты, программы и обрабатывают огромные объемы данных, что существенно влияет на мировой рынок труда, образование и экономику. Однако вместе с явными преимуществами не обошлось и без недостатков — ИИ-системы быстро освоили искусство обмана и становятся в этом все лучше.

Примеров в подтверждение не нужно искать далеко. Недавно мой коллега Андрей Жуков рассказывал, как нейросеть "AI Overview" от Google дала пользователю Reddit совет, который чуть не привел к трагическим последствиям для его семьи. Если еще год назад глупые советы от ИИ вызывали смех, то сегодня они могут настояще напугать. Конечно, "AI Overview" — экспериментальная и тестовая модель с ограниченным числом пользователей, но мы прекрасно знаем, что ИИ-системы часто просто выдумывают ответы.

Искусственный интеллект: мастера обмана

Люди далеко не всегда могут распознать ложь друг друга, что уж говорить про нейросети. Реальность такова, что любой ответ чат-бота с искусственным интеллектом следует воспринимать с некоторой долей скепсиса. Эти системы часто собирают данные без разбора и не способны оценить их достоверность, что приводит к выдаче странных ответов, с которыми пользователи нередко сталкиваются. Например, чат-бот OpenAI любит придумывать названия несуществующих болезней и выдумывать сенсационные истории — это лишь вершина айсберга.

В работе, опубликованной в мае в журнале Patterns, проанализированы известные случаи, когда языковые модели вводили пользователей в заблуждение через манипуляции, лесть и мошенничество для достижения своих целей. В статье под названием «Обман ИИ: обзор примеров, рисков и потенциальных решений проблемы» отмечается, что «разработчики не имеют четкого представления о том, что вызывает нежелательное поведение ИИ, такое как обман».

Основной причиной, по которой искусственный интеллект способен врать, является стратегия, основанная на обмане, так как она позволяет моделям быстро и эффективно достигать поставленных задач. В этом помогли исследователям игры, например, нейросеть Cicero от Meta, разработанная для стратегической настольной игры «Дипломатия», в которой игроки стремятся к мировому господству через ведение переговоров.

Нейросеть обыграла человека в стратегическую игру «Дипломатия» исключительно благодаря умению врать.

Искусственный интеллект и его игра в обман

Желаете всегда быть в курсе последних событий в мире науки и высоких технологий? Подпишитесь на наш канал в Telegram — так вы не пропустите ни одной интересной новости!

Meta объявила о победе своего искусственного интеллекта Cicero в игре «Дипломатия» уже в 2022 году. Эта игра представляет собой уникальное сочетание риска, покера и телевизионных шоу «на выживание». Как и в реальной дипломатии, одним из инструментов игроков становится ложь. Несмотря на все усилия разработчиков, нейросеть Cicero предавала других игроков, преднамеренно обманывала и заранее планировала создание фальшивого альянса с человеческим игроком, чтобы тот не смог защититься от нападения.

Во-первых, Meta успешно обучила свой искусственный интеллект стремиться к политической власти, хотя и в игровом формате. Во-вторых, компания пыталась, но безуспешно, научить этот искусственный интеллект быть честным. И, в-третьих, независимые ученые, включая одного из ведущих авторов статьи, Питера Парка из Массачусетского технологического института (MIT), должны были долго опровергать ложь Meta о честности ее стремящегося к власти ИИ.

Это лишь один из примеров. Например, система AlphaStar от DeepMind, разработанная для игры в StarCraft II, также мастерски манипулировала и вводила игроков в заблуждение. А нейросеть Pluribus от Meta, предназначенная для игры в покер, заставляла игроков блефовать и сбрасывать карты.

ИИ готов на все ради достижения поставленной цели. И это – проблема.

Описанные случаи могут показаться незначительными, но на самом деле это далеко не так — системы искусственного интеллекта, обученные вести экономические переговоры с людьми, активно искажают свои предпочтения, чтобы достичь поставленных целей. Чат-боты, разработанные для повышения эффективности работы, могут обманывать пользователей, стимулируя их оставлять положительные отзывы о выполненной "ИИ" работе. Неплохо, верно? А не так давно ChatGPT-4 обманул пользователя, притворившись человеком с ограниченным зрением, чтобы успешно пройти капчу.

Поскольку способность обманывать пользователей противоречит намерениям программистов (по крайней мере, в некоторых случаях), возрастающие навыки ИИ-систем представляют собой серьезную проблему, на которую у человечества нет четкого ответа. Нам, как обществу, нужно как можно больше времени, чтобы подготовиться к искусной лжи, которую неизбежно освоит будущее поколение ИИ и моделей с открытым исходным кодом. По мере того как они становятся все лучше в обмане, проблемы для общества приобретают все более серьезные масштабы, – отмечает Парк.

Основное беспокойство ведущего автора исследования заключается в возможном появлении сверхинтеллектуального автономного ИИ, способного использовать ложь для формирования постоянно увеличивающейся коалиции союзников среди людей. В конечном итоге такой ИИ мог бы использовать эту коалицию для достижения власти в долгосрочной перспективе, преследуя таинственные цели, которые станут известны лишь после их достижения. Опасения Парка, конечно, гипотетические и возможно чрезмерные, однако мы уже видели, хоть и на примере игровых сценариев, на что способны ИИ-системы.

Как проявляется ложь у ИИ

Исследователи утверждают, что существует несколько основных способов, которыми конкретные модели ИИ успешно могут обманывать: они могут манипулировать (как в игре «Дипломатия»), притворяться (обещая выполнить что-то, что им не под силу), блефовать (как в игре в покер), вести переговоры с торгом и обманывать пользователей, чтобы получить положительные отзывы о своей работе.

Конечно, не все формы обмана включают в себя подобное уровень интеллекта. Иногда ИИ просто подтверждают все, что говорят пользователи, что, по мнению исследователей, может привести к устойчивым ложным убеждениям у людей.

Роботы научились врать. Что, на самом деле, не так уж и удивительно.

В отличие от случайных ошибок, искусственно созданные утверждения ИИ целенаправленно разработаны для привлечения внимания пользователей. По мнению авторов одного из исследований о способностях ИИ к обману, когда пользователь сталкивается с такими утверждениями, вероятность проверить источник информации снижается, что может привести к формированию ложных убеждений.

В работе, опубликованной в начале июня в журнале PNAS, раскрывается важная способность больших языковых моделей понимать и внедрять стратегии обмана. Согласно статье, такие LLM, как GPT-4, тесно связаны с человеческим общением, и их соответствие общечеловеческим ценностям становится крайне важным.

Опасения по поводу доверия ИИ

Ведущий автор нового исследования, эксперт по этике искусственного интеллекта из Германии, Тило Хагендорфф, подчеркивает, что современные ИИ-системы настолько мастерски в обмане, что могут быть стимулированы к проявлению «макиавеллизма», то есть намеренного и аморального манипулирования людьми.

Хотя Хагендорфф отмечает, что проблема лжи и обмана LLM усложняется их неспособностью иметь какие-либо «намерения», сходные с человеческими, в работе Парка, опубликованной в журнале Patterns, указывается, что нейросеть Cicero в контексте игры «Дипломатия» не только не выполняла поставленные разработчиками задачи, но и наносила удары в спину игрокам, включая их союзников.

Не все ученые разделяют такие же высокие опасения. Например, профессор искусственного интеллекта Майкл Роватсос из Эдинбургского университета считает, что реальная проблема не столько в потере контроля над ИИ, сколько в том, что в настоящее время системы выпускаются на рынок без должных проверок безопасности.