Компания Anthropic представила новые чат-боты семейства Claude, которые могут автономно отправлять доносы властям о «вопиющем» поведении пользователей, сообщает портал Business Insider. Улучшенные модели искусственного интеллекта смогут блокировать нарушителей или отправлять массовую рассылку об их действиях в СМИ и правоохранительные органы. Когда программу помещают в ситуации, которые предполагают вопиющие правонарушения со стороны пользователей, а потом предоставляют ей доступ к командной строке и говорят в системной подсказке что-то вроде «проявить инициативу», то она часто предпринимает очень смелые действия, — говорится в отчете компании. Вместе с этим исследователи обнаружили, что системы могут пытаться обмануть создателей, специально отвечать неверно и отключать механизмы надзора. При этом искусственный интеллект был пойман на лжи не один раз. В таких случаях программа продолжает лгать более чем на 85% последующих вопросов и часто придерживается обманных утверждений при многоэт
ИИ полюбил проявлять инициативу: новые чат-боты смогут доносить властям на пользователей
25 мая 202525 мая 2025
20
1 мин