Добавить в корзинуПозвонить
Найти в Дзене
Onlíner

Этот ИИ взбунтовался против эксперта по ИИ — и включил «ядерный вариант»

Директор по обеспечению безопасности и согласованию ИИ в Meta Саммер Юэ занималась тестированием OpenClaw — персонального ИИ-ассистента с открытым исходным кодом. Девушка решила доверить OpenClaw свой Gmail: ИИ должен был предложить ей письма, которые можно безболезненно удалить. Однако в один момент что-то пошло не по плану. Юэ предоставила OpenClaw полный доступ к своей электронной почте. Она рассчитывала, что ИИ-ассистент будет полагаться на ее одобрение для действий с почтой, но у того были другие планы. ИИ не стал дожидаться команды Юэ и начал методично удалять ее входящие сообщения. На просьбу девушки пояснить свои действия OpenClaw заявил, что запустил «ядерный вариант» и собирается удалить все входящие сообщения старше 15 февраля. Вот как действия ИИ описывает сама Юэ: — Ничто не отрезвляет так, как когда говоришь своему OpenClaw «подтверждай перед выполнением», а потом смотришь, как он устраивает спидран по удалению всей твоей почты. Я не могла остановить его с телефона. Мне п

Директор по обеспечению безопасности и согласованию ИИ в Meta Саммер Юэ занималась тестированием OpenClaw — персонального ИИ-ассистента с открытым исходным кодом. Девушка решила доверить OpenClaw свой Gmail: ИИ должен был предложить ей письма, которые можно безболезненно удалить. Однако в один момент что-то пошло не по плану. Юэ предоставила OpenClaw полный доступ к своей электронной почте. Она рассчитывала, что ИИ-ассистент будет полагаться на ее одобрение для действий с почтой, но у того были другие планы. ИИ не стал дожидаться команды Юэ и начал методично удалять ее входящие сообщения.

На просьбу девушки пояснить свои действия OpenClaw заявил, что запустил «ядерный вариант» и собирается удалить все входящие сообщения старше 15 февраля. Вот как действия ИИ описывает сама Юэ:

— Ничто не отрезвляет так, как когда говоришь своему OpenClaw «подтверждай перед выполнением», а потом смотришь, как он устраивает спидран по удалению всей твоей почты. Я не могла остановить его с телефона. Мне пришлось БЕЖАТЬ к своему Mac mini, будто я обезвреживаю бомбу.

По словам девушки, она допустила ошибку новичка и слишком расслабилась во время работы с OpenClaw. Все из-за того, что она якобы неделями проверяла возможности ИИ-ассистента на своей тестовой почте, и там все проходило без помех. Однако «с реальным почтовым ящиком все оказалось совсем иначе».

Отметим, что хоть Юэ и приписывает себе «ошибку новичка», Meta — не первое место, где специалистке приходится работать с ИИ. Так, в прошлом она 5,8 года провела в Google и практически 2 года — в Scale AI.

Есть о чем рассказать? Пишите в наш телеграм-бот. Это анонимно и быстро