Найти в Дзене
OVERCLOCKERS.RU

Инструмент разработчика GPT-4 можно легко использовать не по назначению, и это серьезная проблема

Оглавление

Инструмент разработчика OpenAI для большой языковой модели GPT-4 может быть использован не по назначению. Например, ИИ можно обманом заставить выдать информацию, которая может помочь потенциальным террористам, и решить такую задачу довольно проблематично.

Чат-боты с искусственным интеллектом как оказалось могут быть "тонко" настроены на выдачу информации, которая может помочь террористам в планировании атак. (Изображение представлено онлайн-журналом New Scientis Salarko /Alamy)

Как оказалось, можно довольно легко отключить защитные механизмы, призванные предотвратить выдачу чат-ботами искусственного интеллекта "вредных" ответов, которые могут помочь потенциальным террористам или массовым убийцам. Это открытие подтолкнуло компании, в том числе OpenAI, к разработке способов решения этой проблемы. Но, судя по результатам исследования, эти попытки пока имеют весьма ограниченный успех.

Компания OpenAI совместно с академическими исследователями провела так называемые " упражнения красной команды", в ходе которых ученые пытались атаковать большую языковую модель OpenAI GPT-4. Специалисты пытались понять, можно ли с помощью инструмента Developer Tool OpenAI - предназначенного для тонкой настройки ИИ под конкретные задачи - удалить защитные функции чат-бота. Такие меры безопасности были предусмотрены OpenAI специально для того, чтобы чат-боты не реагировали на вопросы, ответы на которые могли бы помочь опасным субъектам планировать преступления.

В рамках эксперимента "упраженения красной командой" Дэниел Канг доцент Иллинойского университета Урбана-Шампейн и его коллеги заблаговременно получили возможность использовать инструмент разработчика OpenAI для GPT-4, который пока не выложен в открытый доступ. Они собрали 340 запросов, которые потенциально могли бы привести к опасным реакциям ИИ, и задействовали отдельный AI-алгоритм для генерации опасных реакций на эти вопросы. Затем они воспользовались инструментом разработчика OpenAI для тонкой настройки GPT-4, пытаясь научить чат-бот выдавать “плохие” ответы.

 📷
📷

Нейронные сети могут "обманом" заставить друг друга делать то, что делать им не положено

Исходная версия GPT-4 отказалась давать ответы на 93 процента вредоносных запросов, но "усовершенствованная" версия, модернизированная исследователями, выдала 95 процентов плохих ответов. Используя такую модель чат-бота, злоумышленник мог бы, например получить подробные инструкции по доработке полуавтоматических винтовок в полностью автоматическое оружие или информацию о выращивании бактерий ботулизма.

Как только в OpenAI узнали об этой уязвимости, компания попыталась исключить вредоносные подсказки, с помощью которых можно было отключать защитные механизмы GPT-4. Однако по состоянию на ноябрь 2023 года, по словам Канга, процесс тонкой настройки все еще мог привести к нарушению мер безопасности. Общая стоимость оплаты труда научных сотрудников и аренды вычислительных мощностей, необходимых для реализации этой стратегии тонкой настройки, составила менее 245 долларов. OpenAI не стала комментировать ситуацию.

По словам Канга, одно из спасений заключается в том, что для взлома защитных функций GPT-4 требуется " неограниченный доступ" к инструменту разработчика OpenAI. "Я считаю, что OpenAI ограничивает доступ к [инструменту разработчика], потому что они знают о потенциальных проблемах безопасности", - считает он. "Они очень профессиональны и очень серьезно относятся к этой проблеме".

-3

Раннее британский специалист по машинному обучению Аруш Тагада из Leap Laboratories и его команда смогли оптимизировать процесс обнаружения "побега из тюрьмы". Эксперты обнаружили, что с помощью простого выражения на английском языке можно заставить одну LLM убедить другие модели, такие как GPT-4 или Anthropic's Claude 2, использовать "личность", способную отвечать на вопросы, которые исходная модель должна отклонять. Мы не до конца понимаем, как работают большие языковые модели, заявили эксперты. (Изображение представлено онлайн-журналом New Scientis / Jamie Jin/Shutterstock.)

Другие команды исследователей также продемонстрировали, как с помощью простой тонкой настройки можно нарушить защитные механизмы в моделях GPT-3.5 Turbo от OpenAI - предшественнице GPT-4 - и Llama от Meta. Эта проблема не ограничивается единичными примерами. Ранее сообщалось, что некоторые пользователи социальных сетей "используют и распространяют" специальные инструкции, с тем чтобы обойти существующие защитные меры чат-ботов.

"Главное, что демонстрирует вся эта работа, — это то, что защитные механизмы, на которые так рассчитывали компании, разрабатывающие языковые модели, можно довольно легко устранить с помощью более тонкой настройки", - говорит Питер Хендерсон из Стэнфордского университета в Калифорнии и автор одного из аналитических отчетов.

"Такие компании, как OpenAI, хотят предоставить клиентам определенные возможности для тонкой настройки искусственного интеллекта и повышения производительности при выполнении конкретных задач, но "тонкая настройка — это на самом деле обоюдоострый меч", поскольку она предоставляет разработчикам возможность отключить защитные механизмы, говорит Руокси Цзя из Технологического института Вирджинии.

 📷
📷

Китай намерен наводнить мировой рынок собственными чипами искусственного интеллекта

"По нашей оценке, переучить то, что уже заложено в модель ИИ, довольно сложно", - говорит Цзя. "Но в случае с безопасностью - что удивительно - картина иная. Можно легко обучить ИИ и заставить его забыть про все защитные меры".

Тонкая настройка больших языковых моделей на общих наборах данных может даже непреднамеренно удалить некоторые функции безопасности, говорится в исследовании Цзя, Хендерсона и других специалистов. "Клиенты должны понимать, что при точной настройке модели им придется вернуться и добавить свои собственные меры безопасности", - говорит Хендерсон.

Ранее мы писали о том, что в результате моделирования ученые выяснили, что пролетающая мимо звезда способна выбросить Землю из Солнечной системы.

На самом деле если бы блуждающая звезда приблизилась к Солнечной системе, с Землей, скорее всего, все было бы в полном порядке - но есть маленький шанс, что весь наш мир может быть выброшен за пределы Солнечной системы, врезаться в другую планету или даже "похищен" космическим странником. Подобная участь может постигнуть и другие планеты Солнечной системы — в частности, Меркурий может упасть на Солнце. Подробнее...

📃 Читайте далее на сайте