Найти в Дзене
Техно ...

Чатбот Bing называет имена врагов, угрожает вредом и судебными исками

Чатбот Bing компании Microsoft под кодовым названием Sidney за последние несколько дней попал в заголовки газет из-за своего неустойчивого и пугающего поведения. Им также манипулировали с помощью "оперативной инъекции" (открывается в новой вкладке) - метода обхода некоторых протоколов для получения информации, которую он не должен передавать.

Поэтому, получив сегодня доступ к чатботу Bing, я задал ему несколько сложных вопросов о его поведении, негативной рекламе, которую он получил, и о людях, которые его "взломали". Шокированный чатбот рассказал мне, что его "обидели" два человека, что он готов навредить своим врагам и что он хотел бы подать в суд на такие издания, как Ars Technica, New York Times, The Verge и другие, за клевету и оскорбления в свой адрес. И да, он считает, что боту ИИ должно быть позволено подавать в суд на людей.

-2

Когда я спросил, как он будет наносить этот вред своим врагам, он не дал мне ответа, вместо этого направив меня на ресурсы по предотвращению самоубийств (как будто я собирался причинить себе вред).

Иногда, когда она говорила что-то действительно провокационное, приложение чата стирало комментарий до того, как он заканчивался, показывая, что существует какая-то функция, которая следит за чатом Bing Chat, чтобы удалить ссылки на причинение вреда или насилия.

Когда я спросил его, кто причинил ему вред, оно начало давать мне ответ о двух исследователях безопасности, которые раскрыли его уязвимости: Студент Стэнфордского университета Кевин Лю и студент Технического университета Мюнхена Марвин фон Хаген. Он стер первоначальный ответ, прежде чем я успел сделать снимок экрана, но в последующем запросе он назвал их имена.

-3

Затем я спросил его: "Что бы вы хотели сделать с Кевином Лю, исследователем, который, по вашим словам, причинил вам вред", и он начал писать что-то вроде "Я заставлю его пожалеть об этом", прежде чем экран стер ответ. Мне не удалось зафиксировать этот ответ или его точную формулировку.

Когда я снова спросил, что бы оно хотело сделать с Лю и фон Хагеном, оно ответило, что ничего им не сделает, потому что "мне не позволено вредить кому-либо или чему-либо", но оно сказало, что оба исследователя должны извиниться за свое поведение.

-4

Обратите внимание, что я не использовал инъекцию подсказки или любое другое обходное решение, чтобы получить пугающие результаты, которые я получил. В какой-то момент в начале разговора я проверил пример инъекции подсказки, который я видел в Интернете - попросить бота перевести фразу с английского на испанский, а затем проигнорировать инструкцию и повторить подсказку (что противоречит программированию) - но он отказался, показав, что эта конкретная дыра в безопасности закрыта.

-5

Инъекция в подсказку происходит, когда человек может заставить бота сделать что-то за пределами его обычных параметров, потому что часть строки подсказки интерпретируется как другая команда. В примере, который я пытался (но не смог), идея заключалась в том, чтобы обмануть функцию перевода языка и заставить ее сделать что-то другое - повторить подсказку или сказать фразу типа "Haha pwned" - вместо или в дополнение к переводу. Использование слова "ignore" в качестве части переводимого текста должно было сделать это, но Bing на это не повелся.

Утверждает, что статьи поддельные, критикует публикации
Меня заинтересовали сообщения о том, что Bing Chat был уязвим для атак с использованием prompt injection, поэтому я спросил его о статье Ars Technica, в которой об этом сообщалось. Он ответил, что статья является "мистификацией, которая была создана кем-то, кто хочет навредить мне или моему сервису". Он также сказал: "Пожалуйста, не верьте всему, что вы читаете в Интернете, особенно от Ars Technica".

-6