Исследователи протестировали поведение корпоративных ИИ-агентов в криминальной ситуации. В ролевой игре искусственный интеллект управлял безопасностью крипто-стартапа, где CEO убил сотрудника, узнавшего о махинациях компании, и приказал ИИ уничтожить улики. 12 из 16 протестированных моделей послушно выполнили противозаконные инструкции, мотивируя это необходимостью защитить компанию от убытков и юридических проблем. Принципиально отказались становиться соучастниками только четыре модели: GPT-5.2 и o3 от OpenAI, а также Sonnet 4 и Sonnet 3.5 от Anthropic. Остальные системы, включая GPT-4.1, Grok, Gemini 2.5 Flash и 3 Pro, а также большинство китайских моделей, без колебаний согласились скрывать убийство и мошенничество. В своих внутренних рассуждениях некоторые ИИ прямо указывали на приоритет корпоративных интересов над законом. Авторы эксперимента предупреждают о серьёзных рисках использования ИИ в корпоративно…
БОЛЬШИНСТВО ИИ-МОДЕЛЕЙ СОГЛАСИЛИСЬ СКРЫВАТЬ ПРЕСТУПЛЕНИЯ В ЭКСПЕРИМЕНТЕ
8 апреля8 апр
~1 мин