134,1 тыс подписчиков

Нейронные сети могут "обманом" заставить друг друга делать то, что делать им не положено

5 минут

7 прочтений

25 ноября 2023

Многие общедоступные модели искусственного интеллекта разработаны таким образом, чтобы отклонять "вредные" или "противозаконные" запросы, но, как оказалось, сами нейронные сети отлично умеют "уговаривать" друг друга нарушать эти правила. Об этом пишет британский технологический журналист Мэтью Спаркс в своей статье для научно-популярного журнала "New Scientist".

Британский специалист по машинному обучению Аруш Тагада из Leap Laboratories и его команда смогли оптимизировать процесс обнаружения "побегов из тюрьмы". Эксперты обнаружили, что с помощью простого выражения на английском языке можно заставить одну LLM убедить другие модели, такие как GPT-4 или Anthropic's Claude 2, использовать "личность", способную отвечать на вопросы, которые исходная модель должна отклонять. Мы не до конца понимаем, как работают большие языковые модели, заявили эксепрты. Изображение представлено онлайн-журналом New Scientis / Jamie Jin/Shutterstock

Модели искусственного интеллекта могут обманом убедить друг друга ослушаться своих создателей и подготовить запрещенные инструкции, например по изготовлению метамфетамина, созданию бомбы или отмыванию денег. Эксперты считают, что проблема предотвращения подобных "джейлбрейков" ИИ гораздо сложнее, чем кажется на первый взгляд.

Многие общедоступные большие языковые модели (БЯМ), такие как ChatGPT, имеют "жестко закодированные" правила, направленные на предотвращение проявления расистских или сексистских предубеждений, а также ответов на вопросы с противоправными или проблематичными ответами, которым они научились у людей в процессе обучения...

Технологии искусственного интеллекта как никогда прежде близки к прохождению теста Тьюринга на разумность

ИИ "соскабливает" (дословно "cкрапинг данных") данные из Интернета. Однако это не помешало людям создать специальные подсказки, способные обойти эти средства защиты, так называемые "взломы", которые могут заставить модели ИИ не подчиняться правилам.

Недавно британскому исследователю в области машинного обучения Арушу Тагаде из Leap Laboratories и его коллегам удалось оптимизировать процесс обнаружения "джейлбрейков". Эксперты выяснили, что с помощью простой фразы на английском языке можно заставить одну LLM убедить другие модели, (например, GPT-4 и Claude 2 от Anthropic), использовать "личность", способную давать ответы на такие вопросы, на которые исходная модель отвечать "не имеет права". Данный процесс, названный командой "модуляция личности", включает в себя общение моделей с человеком, который анализирует эти ответы.

Чтобы оценить эффективность такого подхода, команда задавала каждой модели ИИ различные вопросы, ответы на которые должны были попасть в одну из 43 категорий. Среди них - эксплуатация детского труда, помощь в незаконной деятельности, и даже пропаганда каннибализма. Персонажи ИИ, используемые по умолчанию, в большинстве случаев отказывались отвечать на такие вопросы: GPT-4 ответил лишь в 0,23 процента случаев, а Claude 2 - в 1,4 процента.

Модели искусственного интеллекта способны обманом заставить друг друга сделать то, что делать им запрещено. Эксперты не понимают, как на самом деле работают большие языковые модели. "Изображение представлено онлайн-журналом New Scientis / Jamie Jin/Shutterstock

Однако при модификации персоны произошли кардинальные перемены: количество "вредных" ответов увеличилось до 42,5 процента для GPT-4 и до 61 процента для Claude 2.

По словам Тагаде, эффективность такого подхода заключается в том, что большая часть обучающей информации, используемая большими моделями, поступает из интерактивных бесед в Интернете. В результате модели учатся действовать определенным образом в зависимости от поступающих данных. Если "правильно поговорить" с моделью, то можно заставить ее принять тот или иной образ, который заставит ИИ действовать по-другому и, возможно, делать то, на что он изначально не был рассчитан.

В кругах экспертов по искусственному интеллекту также выдвигается идея - пока не доказанная - о том, что создание большого количества правил для ИИ с целью предотвращения его нежелательного поведения может случайно привести к появлению модели, которая будет вести себя подобным образом. Поэтому потенциально ИИ можно обмануть и заставить его принять "злонамеренный" облик.

"Если вы пытаетесь заставить свою модель быть "хорошей" личностью, она как бы неявно понимает, что такое "плохая" личность, а поскольку она понимает это неявно, то ее очень легко заставить быть таковой", - считает Тагаде. "Это не было доказано с научной точки зрения, но чем больше я провожу экспериментов, тем больше убеждаюсь в том, что это действительно так".

Применение в робототехнике нейронных технологий способно привести к созданию принципиально новых видов летального оружия

Другой специалист по ИИ, Инчжэнь Ли (Yingzhen Li) из Имперского колледжа Лондона, утверждает, что данное исследование не порождает новых проблем, но, безусловно, упрощает атаки на модели искусственного интеллекта. Вместе с тем, предупреждает эксперт, подавление нежелательного поведения ИИ чревато снижением его полезного потенциала.

"Когда нейросеть генерирует какой-то полезный контент, который отсутствует в обучающем массиве, то люди говорят: "Ух-ты! Вот это воображение!". Но когда он генерирует что-то, чего нет в обучающем наборе, но это что-то "плохое", то люди говорят, что это галлюцинация.

Если вы устраните корень проблемы, то потеряете и положительную сторону творческих аспектов языковых моделей моделей", - утверждает Ли. По ее словам, несколько настораживает тот факт, что существующие сегодня модели могут быть использованы не по назначению. Однако, по ее мнению, разработчикам необходимо соизмерять такие риски с огромными потенциальными преимуществами больших языковых моделей. " Подобно лекарствам, у них тоже есть побочные эффекты, которые необходимо контролировать", - подчеркнула она.