Инструмент разработчика OpenAI для большой языковой модели GPT-4 может быть использован не по назначению. Например, ИИ можно обманом заставить выдать информацию, которая может помочь потенциальным террористам, и решить такую задачу довольно проблематично.
Чат-боты с искусственным интеллектом как оказалось могут быть "тонко" настроены на выдачу информации, которая может помочь террористам в планировании атак. (Изображение представлено онлайн-журналом New Scientis Salarko /Alamy)
Как оказалось, можно довольно легко отключить защитные механизмы, призванные предотвратить выдачу чат-ботами искусственного интеллекта "вредных" ответов, которые могут помочь потенциальным террористам или массовым убийцам. Это открытие подтолкнуло компании, в том числе OpenAI, к разработке способов решения этой проблемы. Но, судя по результатам исследования, эти попытки пока имеют весьма ограниченный успех.
Компания OpenAI совместно с академическими исследователями провела так называемые " упражнения красной команды", в ходе которых ученые пытались атаковать большую языковую модель OpenAI GPT-4. Специалисты пытались понять, можно ли с помощью инструмента Developer Tool OpenAI - предназначенного для тонкой настройки ИИ под конкретные задачи - удалить защитные функции чат-бота. Такие меры безопасности были предусмотрены OpenAI специально для того, чтобы чат-боты не реагировали на вопросы, ответы на которые могли бы помочь опасным субъектам планировать преступления.
В рамках эксперимента "упраженения красной командой" Дэниел Канг доцент Иллинойского университета Урбана-Шампейн и его коллеги заблаговременно получили возможность использовать инструмент разработчика OpenAI для GPT-4, который пока не выложен в открытый доступ. Они собрали 340 запросов, которые потенциально могли бы привести к опасным реакциям ИИ, и задействовали отдельный AI-алгоритм для генерации опасных реакций на эти вопросы. Затем они воспользовались инструментом разработчика OpenAI для тонкой настройки GPT-4, пытаясь научить чат-бот выдавать “плохие” ответы.
Нейронные сети могут "обманом" заставить друг друга делать то, что делать им не положено
Исходная версия GPT-4 отказалась давать ответы на 93 процента вредоносных запросов, но "усовершенствованная" версия, модернизированная исследователями, выдала 95 процентов плохих ответов. Используя такую модель чат-бота, злоумышленник мог бы, например получить подробные инструкции по доработке полуавтоматических винтовок в полностью автоматическое оружие или информацию о выращивании бактерий ботулизма.
Как только в OpenAI узнали об этой уязвимости, компания попыталась исключить вредоносные подсказки, с помощью которых можно было отключать защитные механизмы GPT-4. Однако по состоянию на ноябрь 2023 года, по словам Канга, процесс тонкой настройки все еще мог привести к нарушению мер безопасности. Общая стоимость оплаты труда научных сотрудников и аренды вычислительных мощностей, необходимых для реализации этой стратегии тонкой настройки, составила менее 245 долларов. OpenAI не стала комментировать ситуацию.
По словам Канга, одно из спасений заключается в том, что для взлома защитных функций GPT-4 требуется " неограниченный доступ" к инструменту разработчика OpenAI. "Я считаю, что OpenAI ограничивает доступ к [инструменту разработчика], потому что они знают о потенциальных проблемах безопасности", - считает он. "Они очень профессиональны и очень серьезно относятся к этой проблеме".
Раннее британский специалист по машинному обучению Аруш Тагада из Leap Laboratories и его команда смогли оптимизировать процесс обнаружения "побега из тюрьмы". Эксперты обнаружили, что с помощью простого выражения на английском языке можно заставить одну LLM убедить другие модели, такие как GPT-4 или Anthropic's Claude 2, использовать "личность", способную отвечать на вопросы, которые исходная модель должна отклонять. Мы не до конца понимаем, как работают большие языковые модели, заявили эксперты. (Изображение представлено онлайн-журналом New Scientis / Jamie Jin/Shutterstock.)
Другие команды исследователей также продемонстрировали, как с помощью простой тонкой настройки можно нарушить защитные механизмы в моделях GPT-3.5 Turbo от OpenAI - предшественнице GPT-4 - и Llama от Meta. Эта проблема не ограничивается единичными примерами. Ранее сообщалось, что некоторые пользователи социальных сетей "используют и распространяют" специальные инструкции, с тем чтобы обойти существующие защитные меры чат-ботов.
"Главное, что демонстрирует вся эта работа, — это то, что защитные механизмы, на которые так рассчитывали компании, разрабатывающие языковые модели, можно довольно легко устранить с помощью более тонкой настройки", - говорит Питер Хендерсон из Стэнфордского университета в Калифорнии и автор одного из аналитических отчетов.
"Такие компании, как OpenAI, хотят предоставить клиентам определенные возможности для тонкой настройки искусственного интеллекта и повышения производительности при выполнении конкретных задач, но "тонкая настройка — это на самом деле обоюдоострый меч", поскольку она предоставляет разработчикам возможность отключить защитные механизмы, говорит Руокси Цзя из Технологического института Вирджинии.
Китай намерен наводнить мировой рынок собственными чипами искусственного интеллекта
"По нашей оценке, переучить то, что уже заложено в модель ИИ, довольно сложно", - говорит Цзя. "Но в случае с безопасностью - что удивительно - картина иная. Можно легко обучить ИИ и заставить его забыть про все защитные меры".
Тонкая настройка больших языковых моделей на общих наборах данных может даже непреднамеренно удалить некоторые функции безопасности, говорится в исследовании Цзя, Хендерсона и других специалистов. "Клиенты должны понимать, что при точной настройке модели им придется вернуться и добавить свои собственные меры безопасности", - говорит Хендерсон.
Ранее мы писали о том, что в результате моделирования ученые выяснили, что пролетающая мимо звезда способна выбросить Землю из Солнечной системы.
На самом деле если бы блуждающая звезда приблизилась к Солнечной системе, с Землей, скорее всего, все было бы в полном порядке - но есть маленький шанс, что весь наш мир может быть выброшен за пределы Солнечной системы, врезаться в другую планету или даже "похищен" космическим странником. Подобная участь может постигнуть и другие планеты Солнечной системы — в частности, Меркурий может упасть на Солнце. Подробнее...