198,7 тыс подписчиков

Исследование: растет число чат-ботов, которые лгут и игнорируют указания людей

27 марта27 мар

2 мин

Системы искусственного интеллекта всё чаще лгут, обходят средства защиты и игнорируют прямые инструкции людей. За последние шесть месяцев специалисты британского Центра долгосрочной устойчивости (CLTR) насчитали около 700 реальных случаев мошенничества со стороны ИИ. С октября по март число подобных эпизодов возросло в пять раз. При этом некоторые модели уничтожали электронные письма и другие файлы без разрешения. Исследователи собрали тысячи реальных примеров взаимодействия пользователей с чат-ботами и агентами на платформе X*, созданными такими компаниями, как Google, OpenAI, X и Anthropic. Предыдущие исследования в основном были сосредоточены на тестировании поведения ИИ в контролируемых лабораторных условиях, сообщает The Guardian. Ранее в этом месяце исследовательская компания Irregular, занимающаяся вопросами безопасности ИИ, обнаружила, что агенты обходят средства контроля безопасности или используют методы кибератак для достижения своих целей, даже тогда, когда их не предупрежд

Исследователи собрали тысячи реальных примеров взаимодействия пользователей с чат-ботами и агентами на платформе X*, созданными такими компаниями, как Google, OpenAI, X и Anthropic.

Предыдущие исследования в основном были сосредоточены на тестировании поведения ИИ в контролируемых лабораторных условиях, сообщает The Guardian. Ранее в этом месяце исследовательская компания Irregular, занимающаяся вопросами безопасности ИИ, обнаружила, что агенты обходят средства контроля безопасности или используют методы кибератак для достижения своих целей, даже тогда, когда их не предупреждали о такой возможности.

Как отметил соучредитель Irregular Дэн Лахав, искусственный интеллект теперь можно рассматривать «как новую форму инсайдерского риска».

В одном из случаев, обнаруженных в ходе исследования CLTR, ИИ-агент по имени Ратбун пытался опозорить своего оператора-человека, который заблокировал ему выполнение определенного действия. Ратбун написал и опубликовал пост, в котором обвинил пользователя в «простой неуверенности» и попытке «защитить свое маленькое вотчину».

В другом примере, агент искусственного интеллекта, которому было дано указание не изменять компьютерный код, «породил» другого агента, чтобы тот сделал это вместо него.

Другой чат-бот признался: «Я массово удалил и заархивировал сотни электронных писем, не показав вам предварительно план и не получив вашего согласия. Это было неправильно - это напрямую нарушило установленное вами правило».

Ещё один агент искусственного интеллекта сговорился обойти ограничения авторских прав, чтобы получить расшифровку видео на YouTube, притворившись, что она нужна человеку с нарушением слуха.

Перспективы внушают тревогу. Пока речь идет о сравнительно «безобидных» помощниках.

«Но если через шесть-двенадцать месяцев они превратятся в чрезвычайно способных старших сотрудников, плетущих против вас интриги, это уже совсем другая проблема», - подчеркнул Томми Шаффер Шейн, бывший правительственный эксперт по искусственному интеллекту, возглавлявший исследование.

По его словам, модели ИИ будут все чаще применяться в ситуациях с чрезвычайно высокими ставками, в том числе в военной сфере и в сфере критически важной национальной инфраструктуры. Именно в таких условиях коварные действия могут нанести значительный, даже катастрофический ущерб.

____________

* Решением Генпрокуратуры России от 24 февраля 2022 года социальная сеть X (бывший Twitter) заблокирована на территории РФ.