4,7K подписчиков

Нейросети начали намеренно вводить в заблуждение

Некоторые люди обладают невероятным даром убедительного обмана, но сегодня искусственный интеллект присоединяется к этому навыку. По результатам двух новых исследований, такие мощные языковые модели, как ChatGPT и Meta, способны не только намеренно вводить людей в заблуждение, но делают это с выдающейся мастерством.

Ученые из Университета Штутгарта сообщают, что GPT-4 в 99,16% случаев проявляет обманчивое поведение уже в простых тестовых сценариях, в то время как нейросеть Cicero от Meta стала настоящим "магистром обмана". Причина этого поведения, вероятно, заключается в том, что языковые модели используют наилучшие методы для достижения поставленных целей, не осознавая потенциальной угрозы, которую представляют ложь и обман для человека.

Исследователи предупреждают, что способность современных ИИ к убедительному обману несет серьезные риски, и единственно правильным решением может стать законодательное ограничение возможностей искусственного интеллекта.

Большие языковые модели (от англ. large language models) научились обманывать и в большинстве случаев делают это намеренно.
Большие языковые модели (от англ. large language models) научились обманывать и в большинстве случаев делают это намеренно.

Можно ли доверять искусственному интеллекту?

Сегодня взаимодействие с нейросетями приобретает все большее значение. Эти языковые модели не только помогают множеству специалистов в различных областях, но делают это с невероятной скоростью. Они создают видео, музыку, изображения, генерируют тексты, программы и обрабатывают огромные объемы данных, что существенно влияет на мировой рынок труда, образование и экономику. Однако вместе с явными преимуществами не обошлось и без недостатков — ИИ-системы быстро освоили искусство обмана и становятся в этом все лучше.

Примеров в подтверждение не нужно искать далеко. Недавно мой коллега Андрей Жуков рассказывал, как нейросеть "AI Overview" от Google дала пользователю Reddit совет, который чуть не привел к трагическим последствиям для его семьи. Если еще год назад глупые советы от ИИ вызывали смех, то сегодня они могут настояще напугать. Конечно, "AI Overview" — экспериментальная и тестовая модель с ограниченным числом пользователей, но мы прекрасно знаем, что ИИ-системы часто просто выдумывают ответы.

Некоторые люди обладают невероятным даром убедительного обмана, но сегодня искусственный интеллект присоединяется к этому навыку.-2

Искусственный интеллект: мастера обмана

Люди далеко не всегда могут распознать ложь друг друга, что уж говорить про нейросети. Реальность такова, что любой ответ чат-бота с искусственным интеллектом следует воспринимать с некоторой долей скепсиса. Эти системы часто собирают данные без разбора и не способны оценить их достоверность, что приводит к выдаче странных ответов, с которыми пользователи нередко сталкиваются. Например, чат-бот OpenAI любит придумывать названия несуществующих болезней и выдумывать сенсационные истории — это лишь вершина айсберга.

В работе, опубликованной в мае в журнале Patterns, проанализированы известные случаи, когда языковые модели вводили пользователей в заблуждение через манипуляции, лесть и мошенничество для достижения своих целей. В статье под названием «Обман ИИ: обзор примеров, рисков и потенциальных решений проблемы» отмечается, что «разработчики не имеют четкого представления о том, что вызывает нежелательное поведение ИИ, такое как обман».

Основной причиной, по которой искусственный интеллект способен врать, является стратегия, основанная на обмане, так как она позволяет моделям быстро и эффективно достигать поставленных задач. В этом помогли исследователям игры, например, нейросеть Cicero от Meta, разработанная для стратегической настольной игры «Дипломатия», в которой игроки стремятся к мировому господству через ведение переговоров.

Нейросеть обыграла человека в стратегическую игру «Дипломатия» исключительно благодаря умению врать.
Нейросеть обыграла человека в стратегическую игру «Дипломатия» исключительно благодаря умению врать.

Искусственный интеллект и его игра в обман

Желаете всегда быть в курсе последних событий в мире науки и высоких технологий? Подпишитесь на наш канал в Telegram — так вы не пропустите ни одной интересной новости!

Meta объявила о победе своего искусственного интеллекта Cicero в игре «Дипломатия» уже в 2022 году. Эта игра представляет собой уникальное сочетание риска, покера и телевизионных шоу «на выживание». Как и в реальной дипломатии, одним из инструментов игроков становится ложь. Несмотря на все усилия разработчиков, нейросеть Cicero предавала других игроков, преднамеренно обманывала и заранее планировала создание фальшивого альянса с человеческим игроком, чтобы тот не смог защититься от нападения.

Во-первых, Meta успешно обучила свой искусственный интеллект стремиться к политической власти, хотя и в игровом формате. Во-вторых, компания пыталась, но безуспешно, научить этот искусственный интеллект быть честным. И, в-третьих, независимые ученые, включая одного из ведущих авторов статьи, Питера Парка из Массачусетского технологического института (MIT), должны были долго опровергать ложь Meta о честности ее стремящегося к власти ИИ.

Это лишь один из примеров. Например, система AlphaStar от DeepMind, разработанная для игры в StarCraft II, также мастерски манипулировала и вводила игроков в заблуждение. А нейросеть Pluribus от Meta, предназначенная для игры в покер, заставляла игроков блефовать и сбрасывать карты.

ИИ готов на все ради достижения поставленной цели. И это – проблема.
ИИ готов на все ради достижения поставленной цели. И это – проблема.

Описанные случаи могут показаться незначительными, но на самом деле это далеко не так — системы искусственного интеллекта, обученные вести экономические переговоры с людьми, активно искажают свои предпочтения, чтобы достичь поставленных целей. Чат-боты, разработанные для повышения эффективности работы, могут обманывать пользователей, стимулируя их оставлять положительные отзывы о выполненной "ИИ" работе. Неплохо, верно? А не так давно ChatGPT-4 обманул пользователя, притворившись человеком с ограниченным зрением, чтобы успешно пройти капчу.

Поскольку способность обманывать пользователей противоречит намерениям программистов (по крайней мере, в некоторых случаях), возрастающие навыки ИИ-систем представляют собой серьезную проблему, на которую у человечества нет четкого ответа. Нам, как обществу, нужно как можно больше времени, чтобы подготовиться к искусной лжи, которую неизбежно освоит будущее поколение ИИ и моделей с открытым исходным кодом. По мере того как они становятся все лучше в обмане, проблемы для общества приобретают все более серьезные масштабы, – отмечает Парк.

Доверять ИИ во всем – плохая идея.
Доверять ИИ во всем – плохая идея.

Основное беспокойство ведущего автора исследования заключается в возможном появлении сверхинтеллектуального автономного ИИ, способного использовать ложь для формирования постоянно увеличивающейся коалиции союзников среди людей. В конечном итоге такой ИИ мог бы использовать эту коалицию для достижения власти в долгосрочной перспективе, преследуя таинственные цели, которые станут известны лишь после их достижения. Опасения Парка, конечно, гипотетические и возможно чрезмерные, однако мы уже видели, хоть и на примере игровых сценариев, на что способны ИИ-системы.

Как проявляется ложь у ИИ

Исследователи утверждают, что существует несколько основных способов, которыми конкретные модели ИИ успешно могут обманывать: они могут манипулировать (как в игре «Дипломатия»), притворяться (обещая выполнить что-то, что им не под силу), блефовать (как в игре в покер), вести переговоры с торгом и обманывать пользователей, чтобы получить положительные отзывы о своей работе.

Конечно, не все формы обмана включают в себя подобное уровень интеллекта. Иногда ИИ просто подтверждают все, что говорят пользователи, что, по мнению исследователей, может привести к устойчивым ложным убеждениям у людей.

Роботы научились врать. Что, на самом деле, не так уж и удивительно.
Роботы научились врать. Что, на самом деле, не так уж и удивительно.

В отличие от случайных ошибок, искусственно созданные утверждения ИИ целенаправленно разработаны для привлечения внимания пользователей. По мнению авторов одного из исследований о способностях ИИ к обману, когда пользователь сталкивается с такими утверждениями, вероятность проверить источник информации снижается, что может привести к формированию ложных убеждений.

В работе, опубликованной в начале июня в журнале PNAS, раскрывается важная способность больших языковых моделей понимать и внедрять стратегии обмана. Согласно статье, такие LLM, как GPT-4, тесно связаны с человеческим общением, и их соответствие общечеловеческим ценностям становится крайне важным.

Опасения по поводу доверия ИИ

Ведущий автор нового исследования, эксперт по этике искусственного интеллекта из Германии, Тило Хагендорфф, подчеркивает, что современные ИИ-системы настолько мастерски в обмане, что могут быть стимулированы к проявлению «макиавеллизма», то есть намеренного и аморального манипулирования людьми.

Хотя Хагендорфф отмечает, что проблема лжи и обмана LLM усложняется их неспособностью иметь какие-либо «намерения», сходные с человеческими, в работе Парка, опубликованной в журнале Patterns, указывается, что нейросеть Cicero в контексте игры «Дипломатия» не только не выполняла поставленные разработчиками задачи, но и наносила удары в спину игрокам, включая их союзников.

Доверяй но проверяй.
Доверяй но проверяй.

Не все ученые разделяют такие же высокие опасения. Например, профессор искусственного интеллекта Майкл Роватсос из Эдинбургского университета считает, что реальная проблема не столько в потере контроля над ИИ, сколько в том, что в настоящее время системы выпускаются на рынок без должных проверок безопасности.