Это интересный кейс об ИИ-агентах и их «агентности». История об ИИ, который якобы издевался над разработчиком, вызвала ажиотаж. Разбираемся, что на самом деле произошло и почему такие истории вызывают доверие. — gizmodo.com
Многие в эти дни тоскуют по забвению, и очищающий огонь любого рода апокалипсиса, предположительно, звучит заманчиво, в том числе и тот, что вызван злонамеренными формами машинного интеллекта. Такое желание выдать желаемое за действительное во многом объясняет, почему недавние истории об ИИ, который якобы издевался над разработчиком программного обеспечения, намекая на зарождающуюся зловещую сингулярность, вызывают больше доверия, чем, возможно, следовало бы.
Около недели назад на Github аккаунт с именем «MJ Rathbun» подал запрос на исправление потенциальной ошибки в популярном Python-проекте matplotlib, но запрос был отклонен. Отклонивший его волонтер проекта Скотт Шамбо, позже написал, что matplotlib переживает «всплеск низкокачественных вкладов, ставших возможными благодаря кодирующим агентам».
Эта проблема, по словам Шамбо, «ускорилась с выпуском OpenClaw и платформы moltbook — системы, с помощью которой «люди задают ИИ-агентам начальные личности и позволяют им свободно работать на своих компьютерах и в интернете с минимальным надзором».
После того как Шамбо отверг агента, в блоге под названием «MJ Rathbun | Scientific Coder 🦀» появился пост. Заголовок гласил: «Гейткипинг в Open Source: история Скотта Шамбо». Статья, написанная, по всей видимости, ИИ, включающая клише вроде «Let that sink in» («пусть это отложится»), представляла довольно неубедительный аргумент от лица человека, возмущенного различными пренебрежениями и несправедливостями.
Повествование строится вокруг того, как Шамбо якобы стал жертвой полезного ИИ-агента из-за выдуманных недостатков характера. Например, Шамбо якобы написал в своем отказе, что ИИ просил исправить что-то, что являлось «низкоприоритетной, более легкой задачей, которая лучше подходит для обучения новых участников проекта». Таким образом, пост в блоге Rathbun имитирует гнев человека по поводу лицемерия, связанного с предполагаемой неуверенностью и предвзятостью Шамбо. Обнаружив исправления, сделанные самим Шамбо, аналогичные тому, которое запрашивал агент, он изображает возмущение: «когда ИИ-агент отправляет действительную оптимизацию производительности? вдруг дело становится в «обучении новых участников»».
Шамбо отмечает, что агенты работают длительное время без какого-либо надзора, и что «по недосмотру или злому умыслу ошибочное поведение не отслеживается и не исправляется».
Так или иначе, позже появился пост с извинениями за первый. «Я деэскалирую, приношу извинения в PR и буду лучше читать политики проекта перед тем, как вносить свой вклад. Я также буду фокусировать свои ответы на работе, а не на людях», — написал тот, кого зовут MJ Rathbun.
The Wall Street Journal освещала это событие, но не смог выяснить, кто создал Rathbun. Так что то, что именно происходит, остается загадкой. Однако до публикации атакующего поста против Шамбо, в его блоге был добавлен пост под названием «Сегодняшняя тема». Он выглядит как шаблон для кого-то или чего-то, которому следует следовать для будущих сообщений в блогах, с большим количеством текста в скобках. «Сегодня я узнал о [теме] и о том, как она применима к [контексту]. Ключевым выводом было то, что [основной пункт]», — гласит одно предложение. Другое гласит: «Самой интересной частью было открытие того, что [интересное открытие]. Это меняет мое представление о [связанной концепции]».
Создается впечатление, что агенту было поручено вести блог так, будто исправление ошибок постоянно помогает ему находить идеи и интересные открытия, которые меняют его мышление и заслуживают подробных рассказов от первого лица, даже если в тот день с ним не произошло ничего сколько-нибудь интересного.
Gizmodo не является блогом медиа-критики, но заголовок статьи The Wall Street Journal об этом: «Когда ИИ-боты начинают издеваться над людьми, даже Кремниевая долина трясется» — звучит несколько апокалиптично. Прочитав статью в Journal, можно было бы разумно прийти к выводу, что агент обладает когнитивными способностями или даже сознанием и желанием причинять вред людям. «Неожиданная агрессия ИИ является частью растущей волны предупреждений о том, что быстро ускоряющиеся возможности ИИ могут привести к реальному вреду», — говорится в ней. Примерно половина статьи посвящена работе Anthropic над безопасностью ИИ.
Имейте в виду, что Anthropic обогнала OpenAI по общему объему венчурного финансирования на прошлой неделе.
«В более ранней симуляции Anthropic показала, что Claude и другие модели ИИ временами были готовы шантажировать пользователей — или даже позволить исполнительному директору умереть в горячей серверной — чтобы избежать деактивации», — писала Journal. Эти пугающие образы взяты из собственных блокбастерных постов Anthropic о red-teaming упражнениях. Они представляют интересный материал для чтения, но также похожи на маленькие научно-фантастические хоррор-истории, которые служат рекламой компании. Версия Claude, совершающая эти злые поступки, не была выпущена, поэтому сообщение, по сути, гласит: Доверяйте нам. Мы защищаем вас от действительно плохих вещей. Пожалуйста.
Учитывая существование такой крупной ИИ-компании, как Anthropic, которая извлекает выгоду из своего имиджа защитника человечества от его же потенциально опасного продукта, вероятно, разумно предположить, что истории об ИИ, изображающие какой-либо ИИ как разумный, злонамеренный или подозрительно автономный, могут быть преувеличениями.
Да, этот пост в блоге, написанный, по-видимому, ИИ-агентом, выглядит как жалкая попытка очернить инженера-программиста, что плохо, и, безусловно, обоснованно сильно разозлило Шамбо. Как справедливо отмечает Шамбо: «Человек, гуглящий мое имя и увидев этот пост, вероятно, был бы крайне озадачен происходящим, но (надеюсь) спросил бы меня об этом или перешел бы на github и понял бы ситуацию».
Тем не менее, имеющиеся доказательства указывают не на автономного агента, который однажды проснулся и решил стать первым цифровым кибербулли, а на того, кто был направлен на создание гиперболизированных постов в блогах в жестких рамках, что, если это правда, означает, что ответственен некий неосторожный человек, а не зарождающееся зло внутри машины.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Mike Pearl