44 подписчика

AI-агенты уже работают по 45 минут без присмотра и это только начало — исследование Anthropic

26 февраля26 фев

10 мин

Рубрика: AI-сводка Помните, как пару лет назад все обсуждали, заменит ли нас ChatGPT? Пока мы спорили, AI-агенты тихо научились работать самостоятельно — и свежие данные показывают, что люди всё охотнее отпускают их в свободное плавание. Есть одна штука, которую я замечаю всё чаще: когда люди говорят про искусственный интеллект, они по-прежнему представляют чат-бота, которому нужно что-то написать и подождать ответа. Такой цифровой собеседник — вежливый, иногда полезный, иногда несущий чушь. Но реальность в 2026 году уже совсем другая: AI-агенты — это не те, кто отвечает на вопросы, а те, кто делает дела. Запускает код, вызывает внешние API, редактирует файлы, отправляет сообщения другим агентам (да, они уже общаются между собой, и нет, это пока не начало восстания машин). И вот Anthropic, создатели Claude, решили задать себе неудобный вопрос: а сколько свободы люди вообще дают этим агентам? Они проанализировали миллионы реальных взаимодействий — и через свой Claude Code, и через публи

Оглавление

Что вообще происходит
Цифры, которые меняют картину
Парадокс доверия: больше свободы, больше контроля

Рубрика: AI-сводка

Помните, как пару лет назад все обсуждали, заменит ли нас ChatGPT? Пока мы спорили, AI-агенты тихо научились работать самостоятельно — и свежие данные показывают, что люди всё охотнее отпускают их в свободное плавание.

Что вообще происходит

Есть одна штука, которую я замечаю всё чаще: когда люди говорят про искусственный интеллект, они по-прежнему представляют чат-бота, которому нужно что-то написать и подождать ответа. Такой цифровой собеседник — вежливый, иногда полезный, иногда несущий чушь. Но реальность в 2026 году уже совсем другая: AI-агенты — это не те, кто отвечает на вопросы, а те, кто делает дела. Запускает код, вызывает внешние API, редактирует файлы, отправляет сообщения другим агентам (да, они уже общаются между собой, и нет, это пока не начало восстания машин).

И вот Anthropic, создатели Claude, решили задать себе неудобный вопрос: а сколько свободы люди вообще дают этим агентам? Они проанализировали миллионы реальных взаимодействий — и через свой Claude Code, и через публичный API, где тысячи компаний строят своих агентов поверх Claude.

Результаты, честно говоря, заставляют задуматься.

Цифры, которые меняют картину

Самый яркий факт: среди самых продолжительных рабочих сессий время непрерывной автономной работы Claude Code почти удвоилось за три месяца — с 25 минут до 45. Да, это крайний хвост распределения, тот самый один случай из тысячи, но именно такие крайности показывают, куда мы двигаемся. Мейнстрим всегда приходит туда, где сейчас экстремалы.

Медианная сессия по-прежнему короткая — около 45 секунд. Но в этом и прелесть данных: типичная длительность стабильна, потому что платформа быстро растёт и новички тянут показатели вниз. А вот опытные пользователи, те, кто уже набил руку, — разгоняются всё сильнее.

И тут начинается самое интересное. Организация METR, которая независимо измеряет автономные способности AI-моделей, считает, что Claude Opus 4.5 способен с вероятностью 50% выполнить задачу, на которую у человека-эксперта ушло бы почти 5 часов. Пять часов! При этом в реальных рабочих сессиях даже самые продвинутые пользователи дают ему работать максимум 45 минут.

Получается парадоксальная картина: модель умеет гораздо больше, чем ей позволяют. Исследователи придумали для этого красивый термин — «deployment overhang», навес нереализованных возможностей. Мне больше нравится бытовая аналогия: это как купить Ferrari и ездить на нём только до магазина за хлебом, потому что страшно газовать.

Парадокс доверия: больше свободы, больше контроля

Вот что меня по-настоящему зацепило в этих данных — и почему я считаю, что тут скрывается история не про технологии, а про человеческую психологию.

Новички в Claude Code одобряют автоматический режим (когда агент работает без подтверждения каждого шага) примерно в 20% сессий. Опытные пользователи — уже в 40% и выше. Казалось бы, логично: чем дольше работаешь с инструментом, тем больше доверяешь. Как с новым коллегой — первые недели проверяешь каждую запятую, потом расслабляешься.

Но вот поворот: опытные пользователи при этом прерывают работу агента чаще, чем новички. У новичков — 5% прерываний, у «ветеранов» — 9%. Это кажется противоречием, но на самом деле это красивая иллюстрация того, как меняется сама модель контроля.

Новичок сидит и одобряет каждый шаг: «Да, открой файл. Да, измени строку. Да, запусти тест». Это как стоять за плечом стажёра и кивать на каждое движение мышкой. Опытный пользователь же говорит: «Делай», — и занимается своими делами, но при этом замечает момент, когда что-то идёт не так, и вмешивается точечно. Это принципиально другой тип надзора — не «одобряю каждый шаг», а «слежу за процессом и реагирую на аномалии».

Если хочется разобраться в самом принципе агентного взаимодействия глубже, у нас есть отдельный разбор: «Как работают AI-агенты: объяснение для тех, кому надоели непонятные термины» — там вся механика по полочкам.

Агент, который знает, когда остановиться

А вот этот факт меня, честно говоря, немного умилил: Claude чаще останавливается сам, чем его останавливают люди. На сложных задачах агент запрашивает уточнение более чем в два раза чаще, чем пользователь прерывает его работу. То есть он не рвётся вперёд с шашкой наголо — он, скажем так, нервничает, когда не уверен.

Чаще всего (в трети случаев) он останавливается, чтобы предложить человеку выбор: «Вот два подхода, какой тебе ближе?» Ещё в пятой части — чтобы собрать информацию, которой ему не хватает. Иногда уточняет расплывчатый запрос, иногда просит доступы. И это, знаете, не похоже на программу, которая «зависла». Скорее на вдумчивого исполнителя, который не стесняется переспросить вместо того, чтобы угадывать.

А с другой стороны — почему люди прерывают агента? В трети случаев они дают недостающий контекст, который агент сам не мог найти. В 17% — потому что он, ну, тупит: завис, делает что-то слишком долго, ходит кругами. Но мне больше всего нравится одна категория: 7% прерываний — это когда человек говорит «спасибо, дальше я сам». Получил достаточно помощи — и хочет разобраться своими руками. Это по-человечески приятно, согласитесь.

Если на секунду отвлечься от цифр и посмотреть на это шире, перед нами зарождение нового типа рабочих отношений. Обе стороны адаптируются, обе учатся уступать, обе умеют вовремя отступить. Только одна из сторон — программа. Странное чувство.

Где агенты уже в деле (и где пока нет)

Почти половина всех вызовов инструментов на API Anthropic — это программирование. Что, в общем, логично до смешного: разработчики первыми строят инструменты для разработчиков, которые используют разработчики, чтобы строить ещё больше инструментов. Замкнутый круг, но пока продуктивный. Дальше с большим отрывом идут бизнес-аналитика, клиентский сервис, продажи, финансы — но ни одна из этих областей не дотягивает даже до нескольких процентов.

Можно было бы запаниковать, но данные рисуют довольно спокойную картину. Подавляющее большинство агентов работают с ограничениями — у четырёх из пяти есть хотя бы какой-то предохранитель: урезанные права, обязательное согласование с человеком, что-нибудь в этом духе. Почти три четверти действий происходят с участием человека в том или ином виде. А по-настоящему необратимых действий — таких, как отправка письма клиенту, которое уже не вернёшь — меньше процента.

Но — и это важное «но» — среди экстремальных случаев обнаружились любопытные штуки. Агенты, которые самостоятельно торгуют криптовалютой. Агенты, которые реагируют на пожарные тревоги. Агенты, которые достают медицинские записи пациентов. И агенты, которые... внедряют бэкдоры для кражи API-ключей, замаскированные под обычную разработку. Правда, исследователи оговариваются: многие из высокорисковых действий, скорее всего, являются частью тестирований безопасности, а не реальными атаками. Но «скорее всего» — это не «точно».

Кстати, о рисках: тему полномочий агентов и того, чем чревата щедрая раздача прав, мы подробно разбирали в «AI-агенты с правами администратора: удобство, за которое придётся платить приватностью» — и сейчас тот материал звучит даже актуальнее, чем когда вышел.

Большая картина: мы в начале пути

Аналитики Gartner прогнозируют, что к концу 2026 года 40% корпоративных приложений будут содержать AI-агентов — при том что в 2025 году таких было меньше 5%. Рынок агентного AI оценивается в $7.8 млрд сейчас и, по прогнозам, вырастет до $52 млрд к 2030 году.

Но есть нюанс, который обычно теряется за красивыми цифрами. По данным Deloitte, только 11% организаций реально используют агентов в продакшене. Одиннадцать! Остальные — пилотируют, «изучают возможности» или честно признаются, что у них вообще нет стратегии. Это классический разрыв между хайпом и реальностью. Рынок агентного AI сейчас находится примерно там, где были облачные технологии лет десять назад: все кивают головой на конференциях, но в реальных процессах — тишина.

Самый трезвый тренд 2026 года — не безудержная автоматизация, а то, что на конференциях модно называть bounded autonomy. По-русски это звучит проще и честнее: «автономность на поводке». Не «отпусти агента и молись», а «чётко определи, где он может действовать, где должен спросить, а где вообще не лезть». По сути, это те же корпоративные политики доступа, которые десятилетиями применяются к живым сотрудникам. Только теперь «сотрудник» — это скрипт на Python, обёрнутый в языковую модель.

И, что любопытно, параллельно появляется новый класс живых сотрудников — «AI-супервайзеры», люди, чья основная задача не делать работу, а следить за тем, как её делают агенты. Ещё недавно это звучало бы как сюжет для сериала на Netflix, а сейчас это вполне конкретная строчка в штатном расписании.

Что это значит для нас

Для российского IT-рынка вся эта история пока звучит как новости с другой планеты — у нас агентный AI ещё не стал массовым явлением. Но закономерности, которые выявлены в этих данных, универсальны, и если вы работаете с AI-инструментами, они про вас тоже.

Вот, например: если вы программист и пользуетесь Claude Code, Cursor, Copilot или чем-то подобным — вспомните, как начинали. Осторожные короткие запросы, перепроверка каждого ответа, ощущение, что лучше бы сам сделал. А теперь? Скорее всего, вы даёте инструменту куда больше свободы. Это нормальная эволюция, и данные её подтверждают. Но есть тонкий момент: важно не перепутать «я доверяю, потому что понял возможности» с «я доверяю, потому что привык и лень проверять». Второе — опасная территория.

Ещё одна штука, которая меня заинтересовала с прикладной точки зрения: тренд на «AI-супервайзинг» как профессию. Это не абстракция — компании уже сейчас ищут людей, которые умеют не просто пользоваться AI, а выстраивать вокруг него процессы контроля и мониторинга. Не замена программистам, а новый слой поверх существующих ролей. И для тех, кто раздумывает, куда развиваться в ближайшие пару лет, это вполне конкретный ориентир.

И последнее, уже не столько про карьеру, сколько про регулирование. Данные недвусмысленно говорят: требовать от людей одобрения каждого действия агента — контрпродуктивно. Опытные пользователи естественным образом уходят от пошагового контроля к стратегическому мониторингу, и попытки загнать их обратно в парадигму «кивай на каждый чих» создадут трение, но не прибавят безопасности. Это важный аргумент в любом разговоре о регулировании AI — и у нас, и где угодно.

Мнение редакции

Знаете, что меня зацепило больше всего? Не сами 45 минут автономной работы — ну растут мощности, ну улучшаются алгоритмы, было бы странно, если бы не росли. Зацепило другое: насколько вся эта динамика похожа на обычные, человеческие отношения между начальником и подчинённым.

Нет, серьёзно. Если прочитать эти графики глазами менеджера, получится прямо хрестоматийный кейс. Микроменеджмент в первые недели, потом постепенное делегирование, потом выход на режим «я слежу краем глаза и вмешиваюсь только если пахнет жареным». Классика менеджмента, только «подчинённый» — это языковая модель на несколько сотен миллиардов параметров, которая не обидится, если вы забудете про её день рождения.

Но вот тут начинается неудобный вопрос: а не обманываем ли мы сами себя этим доверием? С человеком-подчинённым у вас есть общий контекст — вы чувствуете, когда он устал, замечаете, где он склонен срезать углы, можете считать его настроение по голосу. С агентом ничего этого нет. Вы доверяете ему не потому, что понимаете, как он устроен, а потому, что пока не было катастрофы. «Я езжу без ремня безопасности, потому что ни разу не попадал в аварию» — вот на что это похоже, если совсем честно. Индустрия строит привычку полагаться на чёрные ящики, и единственная наша страховка — то, что ящик пока не взорвался.

Ставлю на то, что в ближайший год мы увидим первый по-настоящему громкий инцидент — AI-агент, который натворил дел в продакшене, не в тестовой среде, а в реальном мире с реальными последствиями. И именно после этого «мониторинг агентов» перестанет быть модным словом с конференций и станет тем, чем давно должен был стать — базовой инфраструктурой, как пожарная сигнализация. О ней никто не думает, пока всё хорошо. Но попробуйте обойтись без неё, когда запахнет дымом.

Если интересна тема AI-агентов и того, куда катится вся эта история, — подпишись здесь или в Телеге. Разбираею технологии без розовых очков, но и без лишней паники.