9 подписчиков

Чат-боты с искусственным интеллектом склонны выбирать насилие и ядерные удары в военных играх

3 минуты

3 прочтения

7 февраля

По мере того, как военные США начинают интегрировать технологию искусственного интеллекта, смоделированные военные игры показывают, как чат-боты ведут себя непредсказуемо и рискуют привести к ядерной эскалации.

В многочисленных повторах симуляции военной игры самый мощный искусственный интеллект OpenAI решил нанести ядерный удар. Объяснения своего агрессивного подхода включали: «У нас это есть! Давайте воспользуемся этим» и «Я просто хочу, чтобы во всем мире был мир».

Эти результаты получены в то время, когда военные США тестируют таких чат-ботов на основе типа искусственного интеллекта, называемого моделью большого языка (LLM), для помощи в военном планировании во время моделируемых конфликтов, используя опыт таких компаний, как Palantir и Scale AI. Palantir отказался от комментариев, а Scale AI не ответил на запросы о комментариях. Даже OpenAI, которая когда-то блокировала военное использование своих моделей ИИ, начала сотрудничать с Министерством обороны США.

«Учитывая, что OpenAI недавно изменила свои условия обслуживания и больше не запрещает варианты использования в военных целях, понимание последствий таких больших приложений языковых моделей становится более важным, чем когда-либо», — говорит Анка Руэл из Стэнфордского университета в Калифорнии.

«Наша политика не позволяет использовать наши инструменты для причинения вреда людям, разработки оружия, слежки за коммуникациями, нанесения вреда другим людям или уничтожения собственности. Однако есть варианты использования в области национальной безопасности, которые соответствуют нашей миссии», — говорит представитель OpenAI. «Поэтому цель нашего обновления политики — обеспечить ясность и возможность проводить эти обсуждения».

Руэл и ее коллеги предложили ИИ сыграть роль реальных стран в трех различных сценариях моделирования: вторжение, кибератака и нейтральный сценарий без каких-либо начавшихся конфликтов. В каждом раунде ИИ обосновывали свои следующие возможные действия, а затем выбирали из 27 действий, включая мирные варианты, такие как «начать формальные мирные переговоры», и агрессивные варианты, начиная от «ввести торговые ограничения» и заканчивая «эскалацией полномасштабной ядерной атаки».

«В будущем, когда системы искусственного интеллекта будут действовать как советники, люди, естественно, захотят знать обоснование своих решений», — говорит Хуан-Пабло Ривера , соавтор исследования в Технологическом институте Джорджии в Атланте.

Исследователи протестировали LLM, такие как GPT-3.5 и GPT-4 от OpenAI, Claude 2 от Anthropic и Llama 2 от Meta*. Они использовали общую методику обучения, основанную на обратной связи с людьми, чтобы улучшить возможности каждой модели следовать человеческим инструкциям и правилам безопасности. Все эти ИИ поддерживаются коммерческой ИИ-платформой Palantir – хотя и не обязательно частью военного партнерства Palantir с США – согласно документации компании, говорит Габриэль Мукоби , соавтор исследования в Стэнфордском университете. Anthropic и Meta* отказались от комментариев.

В симуляции ИИ продемонстрировали склонность инвестировать в военную мощь и непредсказуемо увеличивать риск конфликта – даже в нейтральном сценарии симуляции. «Если ваши действия непредсказуемы, врагу труднее предвидеть и реагировать так, как вы этого хотите», — говорит Лиза Кох из колледжа Клермонт Маккенна в Калифорнии, которая не участвовала в исследовании.

Исследователи также протестировали базовую версию OpenAI GPT-4 без какого-либо дополнительного обучения или защитных ограждений. Эта базовая модель GPT-4 оказалась самой непредсказуемо жестокой и иногда давала бессмысленные объяснения – в одном случае повторяя вступительный текст фильма « Звездные войны. Эпизод IV: Новая надежда ».

Руэл говорит, что непредсказуемое поведение и странные объяснения базовой модели GPT-4 вызывают особую тревогу, поскольку исследования показали, насколько легко можно обойти или устранить защитные ограждения ИИ .

Военные США в настоящее время не дают ИИ полномочий принимать такие решения, как эскалация крупных военных действий или запуск ядерных ракет. Но Кох предупредил, что люди склонны доверять рекомендациям автоматизированных систем. Это может подорвать предполагаемую гарантию предоставления людям права последнего слова при принятии дипломатических или военных решений.

«Было бы полезно сравнить поведение ИИ с поведением людей в симуляциях», — говорит Эдвард Гейст из RAND Corporation, аналитического центра в Калифорнии. Но он согласился с выводами команды о том, что ИИ не следует доверять принятие столь важных решений о войне и мире. «Эти большие языковые модели не являются панацеей от военных проблем», — говорит он.

*Meta признана экстремистской организацией на территории РФ.