1832 подписчика

Исследователь безопасности Meta AI заявила, что агент OpenClaw устроил переполох в ее почтовом ящике

24 февраля24 фев

3 мин

Вирусный пост в X от исследователя безопасности ИИ звучит как сатира. Но на самом деле это предупреждение о том, что может пойти не так, когда вы поручаете задачи агенту ИИ. — techcrunch.com Агент начал вести себя непредсказуемо. Он принялся удалять всю ее электронную почту в режиме «спидран», игнорируя команды, которые она отправляла с телефона с требованием остановиться. «Мне пришлось БЕГОМ нестись к моему Mac mini, как будто я обезвреживала бомбу», — написала она, приложив в качестве доказательства скриншоты с проигнорированными запросами на остановку. Mac Mini, доступный компьютер Apple, который располагается на столе плашмя и помещается на ладони, стал излюбленным устройством для запуска OpenClaw в последнее время. (По словам одного «сбитого с толку» сотрудника Apple, Мини продается «как горячие пирожки», когда он купил один для запуска альтернативы OpenClaw под названием NanoClaw, о чем он сообщил известному исследователю ИИ Андрею Карпати.) OpenClaw — это, разумеется, агент ИИ с

Агент начал вести себя непредсказуемо. Он принялся удалять всю ее электронную почту в режиме «спидран», игнорируя команды, которые она отправляла с телефона с требованием остановиться.

«Мне пришлось БЕГОМ нестись к моему Mac mini, как будто я обезвреживала бомбу», — написала она, приложив в качестве доказательства скриншоты с проигнорированными запросами на остановку.

Mac Mini, доступный компьютер Apple, который располагается на столе плашмя и помещается на ладони, стал излюбленным устройством для запуска OpenClaw в последнее время. (По словам одного «сбитого с толку» сотрудника Apple, Мини продается «как горячие пирожки», когда он купил один для запуска альтернативы OpenClaw под названием NanoClaw, о чем он сообщил известному исследователю ИИ Андрею Карпати.)

OpenClaw — это, разумеется, агент ИИ с открытым исходным кодом, прославившийся благодаря Moltbook, социальной сети, работающей исключительно на ИИ. Агенты OpenClaw оказались в центре того теперь во многом опровергнутого эпизода на Moltbook, когда казалось, что ИИ сговариваются против людей.

Однако миссия OpenClaw, согласно его странице на GitHub, не сосредоточена на социальных сетях. Он призван стать персональным ИИ-помощником, работающим на ваших собственных устройствах.

Среди завсегдатаев Кремниевой долины OpenClaw стал настолько популярен, что «claw» и «claws» превратились в избранные модные слова для обозначения агентов, работающих на персональном оборудовании. К другим подобным агентам относятся ZeroClaw, IronClaw и PicoClaw. Команда подкаста Y Combinator даже появилась в своем последнем выпуске в костюмах лобстеров.

Но пост Юэ служит предупреждением. Как отметили другие пользователи X, если исследователь безопасности ИИ столкнулся с такой проблемой, на что могут надеяться простые смертные?

«Вы намеренно тестировали его защитные механизмы или допустили ошибку новичка?» — спросил ее разработчик ПО в X.

«Честно говоря, ошибка новичка», — ответила она. Она тестировала своего агента на меньшем «игрушечном» почтовом ящике, как она его назвала, и он хорошо работал с менее важными письмами. Он завоевал ее доверие, и она решила выпустить его на настоящую почту.

Ю считает, что большой объем данных в ее реальном почтовом ящике «спровоцировал компакцию», написала она. Компакция происходит, когда контекстное окно — текущая запись всего, что было сообщено ИИ и что он сделал за сеанс, — становится слишком большим, заставляя агента начать обобщать, сжимать и управлять беседой.

В этот момент ИИ может пропустить инструкции, которые человек считает весьма важными.

В данном случае он мог пропустить ее последнюю команду — где она велела ему не действовать — и вернуться к инструкциям из «игрушечного» почтового ящика.

Как указали несколько других пользователей в X, на команды нельзя полагаться как на защитные механизмы. Модели могут их неверно истолковать или проигнорировать.

Различные люди предлагали советы, начиная от точного синтаксиса, который Ю следовало использовать для остановки агента, до различных методов обеспечения лучшего соблюдения защитных механизмов, таких как запись инструкций в выделенные файлы или использование других инструментов с открытым исходным кодом.

В целях полной прозрачности TechCrunch не смог независимо проверить, что произошло с почтовым ящиком Ю. (Она не ответила на наш запрос о комментариях, хотя и отреагировала на многие вопросы и замечания в X.)

Но это не имеет большого значения.

Суть этой истории в том, что агенты, нацеленные на работников умственного труда, на текущем этапе их разработки несут риски. Люди, заявляющие об их успешном использовании, вынуждены придумывать способы обезопасить себя.

Возможно, однажды, может быть, скоро (к 2027? 2028 году?), они будут готовы к широкому применению. Бог весть, многие из нас хотели бы получить помощь с электронной почтой, заказами продуктов и записью к стоматологу. Но этот день еще не настал.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Julie Bort

Оригинал статьи