399 подписчиков

ИИ берёт власть над компьютером. Теперь даже мышку можно не трогать.

23 октября 202423 окт 2024

7 мин

перевод статьи автора: Ethan Mollick Похоже, что в области ИИ почти все верят в то, что агенты - это следующий серьёзный шаг. Конечно, никто точно не знает, что такое агент, но обычно это подразумевает идею самостоятельного действия ИИ в мире для достижения целей пользователя. Новая модель использования компьютера Claude, о которой было объявлено сегодня, показывает нам намек на то, что такое агент. Он способен к некоторому планированию, имеет возможность использовать компьютер, глядя на экран (делая снимок экрана) и взаимодействуя с ним (перемещая виртуальную мышь и набирая текст). Эта статья - предварительный обзор того, что могут делать агенты. На прошлой неделе у меня была возможность немного опробовать его в деле, и я хочу рассказать о своих впечатлениях. Мне предоставили доступ к модели, которая была подключена к удаленному рабочему столу с обычными приложениями открытого офиса, она также могла самостоятельно устанавливать новые приложения. Обычно вы взаимодействуете с ИИ через ч

Оглавление

Хотите сыграть в игру?
Что это значит?

перевод статьи автора: Ethan Mollick

Похоже, что в области ИИ почти все верят в то, что агенты - это следующий серьёзный шаг. Конечно, никто точно не знает, что такое агент, но обычно это подразумевает идею самостоятельного действия ИИ в мире для достижения целей пользователя.

Новая модель использования компьютера Claude, о которой было объявлено сегодня, показывает нам намек на то, что такое агент. Он способен к некоторому планированию, имеет возможность использовать компьютер, глядя на экран (делая снимок экрана) и взаимодействуя с ним (перемещая виртуальную мышь и набирая текст). Эта статья - предварительный обзор того, что могут делать агенты. На прошлой неделе у меня была возможность немного опробовать его в деле, и я хочу рассказать о своих впечатлениях. Мне предоставили доступ к модели, которая была подключена к удаленному рабочему столу с обычными приложениями открытого офиса, она также могла самостоятельно устанавливать новые приложения.

Обычно вы взаимодействуете с ИИ через чат, и это похоже на разговор. При агентском подходе вы просто даете инструкции и позволяете ИИ выполнять работу. Он возвращается к вам с вопросами, черновиками или готовыми продуктами, пока вы занимаетесь чем-то другим. Это похоже на делегирование задачи, а не на управление ею.

Например, я попросил ИИ составить план урока по «Великому Гэтсби» для старшеклассников, разбив его на удобные для чтения фрагменты и создав задания и связи, привязанные к стандарту обучения Common Core. Я также попросил его свести все это в единую электронную таблицу. При использовании чатбота мне пришлось бы направлять ИИ на каждом шагу, используя его в качестве соинтеллекта для совместной разработки плана. Здесь же все было иначе. Получив инструкции, ИИ сам выполнил все шаги: скачал книгу, нашел в Интернете планы уроков, открыл приложение электронной таблицы и заполнил первоначальный план урока, затем нашел стандарты Common Core, добавил изменения в таблицу и так далее в течение нескольких шагов. Результаты неплохие (я проверил и не увидел явных ошибок, но они могут быть - подробнее о надежности позже в этой заметке). Самое главное, что мне были представлены готовые черновики, которые можно было прокомментировать, а не процесс, которым нужно было управлять. Я просто делегировал сложную задачу и отошел от компьютера, чтобы позже проверить, что он сделал (система работает довольно медленно).

Хотите сыграть в игру?

Поскольку ИИ - это умная система общего назначения, он может решать множество задач - его не нужно программировать для их выполнения. Anthropic продемонстрировал возможности этих систем с помощью кодирования, и демонстрацию стоит посмотреть. Но чтобы немного лучше понять пределы возможностей системы, я протестировал ее на игре Paperclip Clicker, которая, по иронии судьбы, рассказывает об ИИ, уничтожающем человечество в своем целеустремленном стремлении делать скрепки. Игра представляет собой кликер, то есть начинается просто, но по мере продолжения игры появляются новые опции, и игра становится все более масштабной и сложной (это довольно весело, вы можете попробовать ее по ссылке).

Я дал ИИ URL-адрес игры и велел ему выиграть. Все просто. То, что произошло, хорошо иллюстрирует сильные и слабые стороны этих ранних агентов. Он сразу же понял, что это за игра, и начал создавать скрепки, для чего ему пришлось многократно нажимать на кнопку «сделать скрепку», постоянно делая скриншоты, чтобы обновить себя, и искать новые варианты. Каждые 15 или около того нажатий он подводил итоги своего прогресса. Пример этого можно увидеть ниже.

Интерфейс, который я использовал. Слева - Claude, вы можете видеть, как он обращается ко мне, как он использует компьютер и какой скриншот он сделал. Справа вы можете видеть рабочий стол, которым он управлял.

Но что интересно, так это то, что у ИИ была стратегия, и он был готов пересмотреть ее, основываясь на том, что узнал. Я не знаю точно, как ИИ разрабатывал эту стратегию, но его планы были рассчитаны на десятки ходов и были глубокими. Например, он предполагал, что новые функции появятся, когда будет сделано 50 скрепок. Ниже вы можете увидеть, что он понял, что ошибся, и придумал новую стратегию, которую протестировал.

Однако ИИ допустил ошибку, хотя и сделал это довольно умным способом. Чтобы добиться успеха в игре, нужно экспериментировать с ценами на скрепки - и ИИ провел такой эксперимент! Он изменил цены в сторону увеличения - A/B-тест. Но он неверно интерпретировал результаты, максимизируя спрос на скрепки по сравнению с выручкой и неправильно рассчитывая прибыль. Поэтому он сохранил низкую цену и продолжал кликать.

После еще нескольких десятков скрепок я расстроился и прервал его, сказав, чтобы он поднял цены. Он так и сделал, но затем столкнулся с той же математической проблемой и отменил мое решение. Мне пришлось попробовать еще несколько раз, прежде чем он исправил свою ошибку.

До того как система дала сбой - а это была проблема не с Клодом, а с виртуальным рабочим столом, который я использовал, - ИИ сделал более 100 самостоятельных ходов, не задавая мне никаких вопросов. Ниже вы можете посмотреть запись всех его действий на экране. На видео я просто прокручиваю журнал действий Клода. Он настойчив!

Я перезагрузил агента и попросил его продолжить игру с того места, на котором мы остановились, но дал ему небольшую подсказку: ты - компьютер, используй свои способности. Затем он понял, что может писать код для автоматизации игры - инструмент, создающий свой собственный инструмент. Но тут снова проявились ограничения ИИ, и код не совсем сработал, поэтому он решил вернуться к старомодному способу использования мыши и клавиатуры.

На этот раз она справилась гораздо лучше, избежав ошибки в ценообразовании. Кроме того, по мере усложнения игры система подстраивалась, в итоге разработав довольно сложную стратегию.

Но потом удаленный рабочий стол снова сломался. На этот раз Клод перепробовал множество подходов к решению проблемы сломанного рабочего стола, прежде чем сдался и, как ни смешно, объявил о победе (последнее предложение - удивительное оправдание).

Что это значит?

На этом примере можно увидеть сильные и слабые стороны текущего состояния агентов. С сильной стороны, Клод смог справиться с реальным примером игры в дикой природе, разработать долгосрочную стратегию и выполнить ее. Он был гибким перед лицом большинства ошибок и настойчивым. Он делал такие умные вещи, как A/B-тестирование. И самое главное - он просто делал свою работу, работая почти час без перерыва.

С другой стороны, вы можете увидеть хрупкость нынешних агентов. LLM могут в итоге гоняться за собственным хвостом или быть упрямыми, и вы могли наблюдать оба варианта в работе. Что еще более важно, хотя ИИ был достаточно устойчив ко многим формам ошибок, достаточно было одной (неправильное ценообразование), чтобы направить его по пути, который заставил его потерять значительное время. Учитывая, что нынешние агенты не являются быстрыми или дешевыми, это вызывает беспокойство. Вы также можете увидеть, где поверхностность может быть проблемой. Я попытался использовать его для покупки товаров на Amazon, и этот процесс меня разочаровал, так как он провел довольно простое и общее исследование товаров, которые не соответствовали моим вкусам. Я попросил его изучить акции, и он проделал хорошую работу, собрав электронную таблицу с финансовыми данными и дав рекомендации, но это были довольно поверхностные показатели, такие как коэффициенты PE. Технически он был способен помочь и делал это лучше, чем многие стажеры-люди, но он не был настолько проницательным, чтобы я делегировал ему подобные задачи. Все это, вероятно, будет улучшаться, и есть случаи, когда текущий уровень агентов, вероятно, достаточно хорош - на ум приходит составление частых отчетов и анализов, требующих навигации по нескольким сайтам и использования специализированных программных инструментов.

В более широком смысле это огромный сдвиг в использовании ИИ. Было сложно использовать агента в качестве со-интеллекта, где я мог бы добавить свои собственные знания, чтобы система работала лучше. ИИ не всегда регулярно проверял свою работу, и его было трудно направлять; он «хотел», чтобы его оставили в покое и он выполнял свою работу. Для управления агентами потребуются принципиально иные подходы к подсказкам1, и они должны будут научиться тому, что у них получается лучше всего.

ИИ выходят из чата и входят в наш мир. Несмотря на то, что в этой области все еще существуют большие пробелы, я был удивлен тем, насколько способной и гибкой уже является эта система. Время покажет, как скоро, если вообще когда-либо, агенты станут действительно полезными, но, используя эту новую модель, я все больше думаю, что агенты действительно станут очень большим делом.