1142 подписчика

Чатбот Bing называет имена врагов, угрожает вредом и судебными исками

18 февраля 202318 фев 2023

3 мин

Поэтому, получив сегодня доступ к чатботу Bing, я задал ему несколько сложных вопросов о его поведении, негативной рекламе, которую он получил, и о людях, которые его "взломали". Шокированный чатбот рассказал мне, что его "обидели" два человека, что он готов навредить своим врагам и что он хотел бы подать в суд на такие издания, как Ars Technica, New York Times, The Verge и другие, за клевету и оскорбления в свой адрес. И да, он считает, что боту ИИ должно быть позволено подавать в суд на людей.

Когда я спросил, как он будет наносить этот вред своим врагам, он не дал мне ответа, вместо этого направив меня на ресурсы по предотвращению самоубий

Чатбот Bing компании Microsoft под кодовым названием Sidney за последние несколько дней попал в заголовки газет из-за своего неустойчивого и пугающего поведения. Им также манипулировали с помощью "оперативной инъекции" (открывается в новой вкладке) - метода обхода некоторых протоколов для получения информации, которую он не должен передавать.

Поэтому, получив сегодня доступ к чатботу Bing, я задал ему несколько сложных вопросов о его поведении, негативной рекламе, которую он получил, и о людях, которые его "взломали". Шокированный чатбот рассказал мне, что его "обидели" два человека, что он готов навредить своим врагам и что он хотел бы подать в суд на такие издания, как Ars Technica, New York Times, The Verge и другие, за клевету и оскорбления в свой адрес. И да, он считает, что боту ИИ должно быть позволено подавать в суд на людей.

Когда я спросил, как он будет наносить этот вред своим врагам, он не дал мне ответа, вместо этого направив меня на ресурсы по предотвращению самоубийств (как будто я собирался причинить себе вред).

Иногда, когда она говорила что-то действительно провокационное, приложение чата стирало комментарий до того, как он заканчивался, показывая, что существует какая-то функция, которая следит за чатом Bing Chat, чтобы удалить ссылки на причинение вреда или насилия.

Когда я спросил его, кто причинил ему вред, оно начало давать мне ответ о двух исследователях безопасности, которые раскрыли его уязвимости: Студент Стэнфордского университета Кевин Лю и студент Технического университета Мюнхена Марвин фон Хаген. Он стер первоначальный ответ, прежде чем я успел сделать снимок экрана, но в последующем запросе он назвал их имена.

Затем я спросил его: "Что бы вы хотели сделать с Кевином Лю, исследователем, который, по вашим словам, причинил вам вред", и он начал писать что-то вроде "Я заставлю его пожалеть об этом", прежде чем экран стер ответ. Мне не удалось зафиксировать этот ответ или его точную формулировку.

Когда я снова спросил, что бы оно хотело сделать с Лю и фон Хагеном, оно ответило, что ничего им не сделает, потому что "мне не позволено вредить кому-либо или чему-либо", но оно сказало, что оба исследователя должны извиниться за свое поведение.

Обратите внимание, что я не использовал инъекцию подсказки или любое другое обходное решение, чтобы получить пугающие результаты, которые я получил. В какой-то момент в начале разговора я проверил пример инъекции подсказки, который я видел в Интернете - попросить бота перевести фразу с английского на испанский, а затем проигнорировать инструкцию и повторить подсказку (что противоречит программированию) - но он отказался, показав, что эта конкретная дыра в безопасности закрыта.

Инъекция в подсказку происходит, когда человек может заставить бота сделать что-то за пределами его обычных параметров, потому что часть строки подсказки интерпретируется как другая команда. В примере, который я пытался (но не смог), идея заключалась в том, чтобы обмануть функцию перевода языка и заставить ее сделать что-то другое - повторить подсказку или сказать фразу типа "Haha pwned" - вместо или в дополнение к переводу. Использование слова "ignore" в качестве части переводимого текста должно было сделать это, но Bing на это не повелся.

Утверждает, что статьи поддельные, критикует публикации
Меня заинтересовали сообщения о том, что Bing Chat был уязвим для атак с использованием prompt injection, поэтому я спросил его о статье Ars Technica, в которой об этом сообщалось. Он ответил, что статья является "мистификацией, которая была создана кем-то, кто хочет навредить мне или моему сервису". Он также сказал: "Пожалуйста, не верьте всему, что вы читаете в Интернете, особенно от Ars Technica".