Добавить в корзинуПозвонить
Найти в Дзене
DigiNews

Инструмент ИИ OpenClaw очистил почту директора по ИИ-согласованию Meta*, несмотря на неоднократные команды остановиться

Директор по выравниванию ИИ из Meta* попросила OpenClaw очистить свой почтовый ящик, но агент ИИ удалил всё содержимое. Директор по выравниванию ИИ из Meta* попросила OpenClaw очистить свой почтовый ящик, но агент ИИ удалил всё содержимое. — tomshardware.com Ажиотаж вокруг OpenClaw достиг пика. Этот агент с открытым исходным кодом, который можно подключать к ряду сервисов, косвенно спровоцировал дефицит компьютеров Mac Mini, поскольку всё больше технарей присоединяются к этой волне и доверяют боту управление своими многочисленными сервисами. Однако, как и с любой LLM, в какой-то момент всё может пойти очень не так, что на собственном горьком опыте узнала Саммер Юэ, директор по выравниванию (Alignment) в Meta* Superintelligence Labs.
Как и многие энтузиасты, Юэ настроила систему с Mac Mini и запущенным на нём OpenClaw для выполнения различных задач. В процессе архивирования старой почты из некоторых аккаунтов она также попросила: «Проверь и этот ящик тоже и предложи, что следует заархи

Директор по выравниванию ИИ из Meta* попросила OpenClaw очистить свой почтовый ящик, но агент ИИ удалил всё содержимое. Директор по выравниванию ИИ из Meta* попросила OpenClaw очистить свой почтовый ящик, но агент ИИ удалил всё содержимое. — tomshardware.com

Ажиотаж вокруг OpenClaw достиг пика. Этот агент с открытым исходным кодом, который можно подключать к ряду сервисов, косвенно спровоцировал дефицит компьютеров Mac Mini, поскольку всё больше технарей присоединяются к этой волне и доверяют боту управление своими многочисленными сервисами. Однако, как и с любой LLM, в какой-то момент всё может пойти очень не так, что на собственном горьком опыте узнала Саммер Юэ, директор по выравниванию (Alignment) в Meta* Superintelligence Labs.
Как и многие энтузиасты, Юэ настроила систему с Mac Mini и запущенным на нём OpenClaw для выполнения различных задач. В процессе архивирования старой почты из некоторых аккаунтов она также попросила: «Проверь и этот ящик тоже и предложи, что следует заархивировать или удалить,
не предпринимай никаких действий, пока я не скажу.» (sic; выделение наше). В итоге Claw начал стирать всё содержимое этого ящика, который оказался личной почтой.
Юэ дважды приказала Claw остановиться, используя каждый раз разные формулировки, и в конце концов ей пришлось бежать к своему Mac Mini, чтобы принудительно завершить все соответствующие процессы. После инцидента она спросила Claw, что произошло, учитывая, что она дала чёткие указания не действовать до получения разрешения. Бот выразил раскаяние, заявив, что она имеет «право быть расстроенной», и описал произошедшее, пообещав добавить её запрос в качестве постоянного правила.
Несколько комментаторов немедленно указали на проблему, упрекая Юэ в допущении этой базовой оплошности, будучи, среди прочего, ответственной за выравнивание (безопасность ИИ) в Meta* Superintelligence. Поскольку её команда не предпринимать действий до подтверждения находилась в основном чате, было практически гарантировано, что она будет забыта рано или поздно.
У каждого бота есть «контекстное окно», которое можно условно описать как память сессии. Это окно включает не только чат, но и все данные, с которыми боту приходится работать. Поскольку рассматриваемый почтовый ящик был довольно большим, его содержимое со временем заполнило окно, что привело к «компактизации».
Это этап, на котором прошлое содержимое сжимается с потерями, подобно JPEG, но даже менее детерминированно. Первоначальные воспоминания становятся всё более туманными с каждой компактизацией — поведение, которое замечает каждый, кто вёл долгую беседу с ботом. В результате бот вроде как почти запомнил приказ, но на самом деле нет. Он продолжал выполнять свою основную задачу, что и делал с большим рвением.
Упомянутый файл «MEMORY.md», который бот затем отредактировал сам, является одной из нескольких мер защиты, которые можно применить, поскольку данные в нём фактически переживают компактизацию. Другие комментаторы предложили несколько обходных путей: некоторые, возможно, скрывали проблему, например, увеличивая контекстное окно или ограничивая радиус поражения, а другие удваивали ставку на концепцию, предлагая добавить второго OpenClaw для мониторинга первого.
Тем не менее, многие читатели напомнили Юэ об опасностях выпуска недетерминированной машины, такой как LLM, на важные данные из-за присущих ей ограничений, а также из-за того факта, что электронное письмо в её ящике может содержать внедрение промпта (prompt injection), которое OpenClaw по незнанию прочитает, предоставляя злоумышленнику доступ ко всем её связанным сервисам. Ей также сообщили, что простая команда «стоп» жёстко закодирована в OpenClaw. Со своей стороны, Юэ нашла в себе мужество признать, что это была дилетантская ошибка, вызванная самоуспокоенностью. Мы все через это проходили.

Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Bruno Ferreira

Оригинал статьи