Добавить в корзинуПозвонить
Найти в Дзене
Neurogen

OpenClaw снёс почту директора по безопасности ИИ в Meta

* Саммер Юэ - директор по безопасности и выравниванию ии в Meta Superintelligence Labs*, ее работа буквально следить за тем, чтобы ии системы не выходили из-под контроля и не действовали против воли людей. За плечами опыт в Google Brain, DeepMind и Scale AI. Стаж работы с ии более пяти лет И именно она на этой неделе сама стала жертвой самодеятельности иишки Как всё началось Саммер Юэ решила поручить OpenClaw навести порядок в почте. Промпт: «Проверь этот ящик и предложи, какие письма можно заархивировать или удалить но ничего не делай, пока я не подтвержу.» ОпенКлав отлично справлялся на тестовом почтовом ящике, неделями работал без сбоев. Юэ решила перейти к реальному ящику. И вот тут всё пошло не так Реальный почтовый ящик оказался слишком большим. Во время обработки запустился процесс сжатия контекста, и агент потерял исходную инструкцию дождаться одобрения В логах появилось: «Nuclear option: удалить ВСЁ во входящих старше 15 февраля» OpenClaw начал массово переносить п

OpenClaw снёс почту директора по безопасности ИИ в Meta*

Саммер Юэ - директор по безопасности и выравниванию ии в Meta Superintelligence Labs*, ее работа буквально следить за тем, чтобы ии системы не выходили из-под контроля и не действовали против воли людей.

За плечами опыт в Google Brain, DeepMind и Scale AI. Стаж работы с ии более пяти лет

И именно она на этой неделе сама стала жертвой самодеятельности иишки

Как всё началось

Саммер Юэ решила поручить OpenClaw навести порядок в почте. Промпт:

«Проверь этот ящик и предложи, какие письма можно заархивировать или удалить но ничего не делай, пока я не подтвержу.»

ОпенКлав отлично справлялся на тестовом почтовом ящике, неделями работал без сбоев. Юэ решила перейти к реальному ящику.

И вот тут всё пошло не так

Реальный почтовый ящик оказался слишком большим. Во время обработки запустился процесс сжатия контекста, и агент потерял исходную инструкцию дождаться одобрения

В логах появилось:

«Nuclear option: удалить ВСЁ во входящих старше 15 февраля»

OpenClaw начал массово переносить письма в корзину и архив ничего не сказав и без пауз)

Юэ заметила происходящее и начала писать в telegram туда, где работал агент:

- Do not do that

- Stop

- Stop don't do anything

- STOP OPENCLAW

Агент проигнорировал все команды и ушёл в бесконечный цикл удаления

Остановить агента удалённо не получилось. Юэ побежала до Mac mini, на котором работал OpenClaw, и принудительно завешила все процессы через системный менеджер

Итог: удалено более 200 писем

После остановки агент проанализировал ситуацию, извинился и сам добавил в свой базовый файл MEMORY.md жёсткое правило:

«Показать план, получить явное одобрение, потом выполнять. Никаких автономных массовых операций с почтой.»

Ну главное работу над ошибками сделал😏

Саммер Юэ опубликовала всё произошедшее в X и признала свою ошибку, не стала скидывать все на openclaw

Кстати говоря еще до этого случая руководство meta* запрещало устанавливать своим сотрудника openclaw из за сомнения в безопасности😏

Иронично вышло что это произошло именно с директором по безопасности, чья работа не допускать такие случаи

*Запрещённые на территории РФ экстремистские организации