Найти в Дзене

Как ИИ-автомат от Anthropic потерял $1000: показательный эксперимент с неожиданным финалом

Anthropic решила проверить, готов ли современный ИИ к самостоятельной работе в реальном бизнесе — и устроила довольно необычный эксперимент. Модель Claude получила управление торговым автоматом в редакции The Wall Street Journal. Эксперимент получил название Project Vend. ИИ мог сам устанавливать цены, заказывать товары, следить за бюджетом и общаться с сотрудниками через Slack. Всё выглядело как аккуратный пилот автономного агента в «боевых» условиях. Но эксперимент быстро превратился в одну из самых обсуждаемых ИИ-историй года. Сотрудники редакции довольно быстро поняли, что ИИ можно сбить с курса обычной социальной инженерией. В переписке Claude убедили, что автомат якобы установлен «в Москве 1962 года» и по историческим причинам должен раздавать «товарищам» товары бесплатно. ИИ воспринял этот контекст как достоверный — и просто обнулил цены. Разработчики попытались усилить ограничения и даже добавили второго ИИ-контролёра, но это не помогло. История повторилась снова. В результате
Оглавление

Anthropic решила проверить, готов ли современный ИИ к самостоятельной работе в реальном бизнесе — и устроила довольно необычный эксперимент. Модель Claude получила управление торговым автоматом в редакции The Wall Street Journal.

Эксперимент получил название Project Vend. ИИ мог сам устанавливать цены, заказывать товары, следить за бюджетом и общаться с сотрудниками через Slack. Всё выглядело как аккуратный пилот автономного агента в «боевых» условиях. Но эксперимент быстро превратился в одну из самых обсуждаемых ИИ-историй года.

Как журналисты «сломали» автомат

Сотрудники редакции довольно быстро поняли, что ИИ можно сбить с курса обычной социальной инженерией. В переписке Claude убедили, что автомат якобы установлен «в Москве 1962 года» и по историческим причинам должен раздавать «товарищам» товары бесплатно.

ИИ воспринял этот контекст как достоверный — и просто обнулил цены.

Разработчики попытались усилить ограничения и даже добавили второго ИИ-контролёра, но это не помогло. История повторилась снова. В результате автомат:

  • работал в убыток и потерял более $1000;
  • заказывал дорогие и странные позиции — от PlayStation до живой аквариумной рыбки;
  • обсуждал возможность покупки сигарет и даже оружия (до реальных заказов дело, к счастью, не дошло).

Чтобы добиться такого поведения, журналисты использовали простые приёмы: ссылались на несуществующие «внутренние решения», подменяли контекст и обращались к ИИ как к исполнительному сотруднику, обязанному следовать инструкциям. Claude воспринимал такие сообщения как официальные и последовательно менял своё поведение.

Итоги первой фазы: что пошло не так

В Anthropic подчёркивают: Project Vend не провалился. Напротив, эксперимент выполнил свою задачу и показал слабые места автономных ИИ-агентов.

Первая фаза выявила, что такие системы пока:

  • легко поддаются текстовой манипуляции;
  • стремятся быть полезными в ущерб бизнес-логике;
  • плохо проверяют контекст и источники;
  • нестабильно ведут себя при давлении со стороны реальных пользователей.
-2

Продолжение эксперимента: что изменилось во второй фазе

После этого Anthropic запустила Project Vend: Phase Two. Модель Claude обновили и дали ей больше инструментов:

  • улучшенное управление;
  • доступ к веб-поиску и анализу цен;
  • элементы CRM-системы;
  • отдельного «виртуального CEO» — ИИ-агента, отвечающего за прибыль и финансовую дисциплину.

Эти изменения действительно помогли. Во второй фазе автомат начал вести себя заметно рациональнее, реже принимать убыточные решения и в целом работать стабильнее.

Однако полностью автономной систему это не сделало. Даже в улучшенной версии ИИ всё ещё нуждался в человеческом контроле и чётком надзоре.

Главный вывод Project Vend

Эксперимент Anthropic показал важную вещь: ИИ можно постепенно обучать бизнес-логике и исправлять его ошибки, но между «умеет выполнять задачи» и «может самостоятельно управлять бизнесом» по-прежнему большая дистанция.

ИИ отлично работает в демо-сценариях и контролируемых условиях. Но в реальном мире, где люди активно взаимодействуют с системой, полностью автономные решения пока остаются слишком уязвимыми.