Найти в Дзене
Цифровая Переплавка

Claude учится работать как инженер: три шага к настоящим ИИ-агентам

Anthropic снова двинула индустрию вперёд: представила три бета-функции, которые превращают Claude из «модели с инструментами» в агента, который умеет сам находить нужные API, работать с ними кодом и понимать правильные шаблоны вызовов. То, что раньше требовало 100K токенов в контексте и цепочек из десятков инференсов, теперь укладывается в 8–10K токенов и выполняется в разы быстрее. И если честно — это один из тех апдейтов, который тихо, но кардинально меняет то, как должен выглядеть современный ИИ-агент. Даже не интерфейс, а архитектуру мышления машины. Сегодня разработка ИИ-агента похожа на подключение дикого количества расширений: Slack, Jira, GitHub, Google Drive, Grafana, Sentry, ваши внутренние MCP-сервера… На практике это означает: Anthropic решила эту проблему так же, как инженеры решают её в больших системах: индексацией, ленивой загрузкой и кодовой оркестрацией. Раньше было так:
все MCP-инструменты заранее загружается в контекст, даже если вам нужно всего два. Теперь Claude р
Оглавление

Anthropic снова двинула индустрию вперёд: представила три бета-функции, которые превращают Claude из «модели с инструментами» в агента, который умеет сам находить нужные API, работать с ними кодом и понимать правильные шаблоны вызовов.

То, что раньше требовало 100K токенов в контексте и цепочек из десятков инференсов, теперь укладывается в 8–10K токенов и выполняется в разы быстрее.

И если честно — это один из тех апдейтов, который тихо, но кардинально меняет то, как должен выглядеть современный ИИ-агент. Даже не интерфейс, а архитектуру мышления машины.

🧠 Агент, который должен работать с тысячами инструментов

Сегодня разработка ИИ-агента похожа на подключение дикого количества расширений: Slack, Jira, GitHub, Google Drive, Grafana, Sentry, ваши внутренние MCP-сервера…

На практике это означает:

  • 💬 сотни описаний инструментов в контексте
  • 📦 десятки тысяч токенов до начала диалога
  • 🔍 схожие имена и ошибки выбора: slack.sendMessage vs slack.notifyUser
  • 📉 токен-голод, когда контекст становится критическим ресурсом

Anthropic решила эту проблему так же, как инженеры решают её в больших системах: индексацией, ленивой загрузкой и кодовой оркестрацией.

🔎 Tool Search Tool: модель сама ищет инструменты, а не вы

Раньше было так:
все MCP-инструменты заранее загружается в контекст, даже если вам нужно всего два.

Теперь Claude работает иначе:

  • 🔍 ищет инструменты по описанию
  • 📥 загружает их лениво
  • 🧽 не захламляет контекст лишним

Результат — до 85 % экономии токенов.
Опус 4 на огромных библиотеках MCP вырос в точности с
49 % → 74 %, Opus 4.5 — с 79,5 % → 88,1 %.

Это уже похоже на то, как работает IDE или OS: инструменты подгружаются только когда нужны.

💡 Почему это важно технически

  • Экономия сотен долларов на длинных сессиях.
  • Prompt caching работает эффективнее, потому что тяжёлые определения не попадают в системный промпт.
  • Агент может работать с тысячами инструментов без разрыва по контексту.

🐍 Programmatic Tool Calling: агент пишет код и управляет инструментами сам

Это самый интересный апдейт — и самый недооценённый.
Модели всегда страдали от «контекстного загрязнения»:

  • запрос 20 отчётов
  • десятки мегабайт данных
  • все это появляется в контексте
  • затем модель вынуждена глазами (логикой) искать в массиве нужное

Это медленно, дорого и ошибочно.

Anthropic сделали то, что лежало на поверхности:
разрешили агенту писать Python-код, который вызывает инструменты напрямую, без возврата промежуточных данных в контекст.

Пример из статьи (сокращённо)

  • 🧾 получаем 20 сотрудников
  • 📊 собираем расходы параллельно
  • 📉 суммируем и сравниваем с бюджетами
  • ➡️ контексту возвращается только результат: 2–3 нарушителя бюджета

Запрос обрабатывает тысячи строк данных, но модель видит лишь 1KB итоговых данных.

Технические выигрыши:

  • минус десятки инференсов — оркестрами (orchestration) идёт внутри скрипта
  • 📉 –37 % токенов в сложных задачах (по данным Anthropic)
  • 🎯 меньше ошибок, потому что логика явно прописана в коде, а не в естественном языке

И вот это уже похоже на модель в роли оператора (“LLM-as-an-operator”):
модель пишет код, код вызывает API, API возвращает данные, код сворачивает их и даёт модели итог.

📘 Tool Use Examples: LLM наконец понимает, как именно вы хотите использовать API

JSON Schema описывает структуру, но не:

  • 💢 обязателен ли e-mail при “критической” ошибке
  • 🕒 в каком формате писать даты
  • 🔖 как правильно заполнять подписи (labels)
  • 📞 когда добавлять вложенный reporter.contact
  • 🔺 какие параметры коррелируют между собой

Tool Use Examples добавляют примеры, и Claude учится так же, как разработчик:

  • один короткий пример
  • один полный
  • один минималистичный

Anthropic заявляет рост точности формирования параметров с 72 % → до 90 %. Это огромный скачок.

На практике это критично:

  • не сломаются CI/CD пайплайны
  • корректно будут заполняться Jira/Sentry/Splunk API
  • исчезают многолетние проблемы с «раньше ты принимал "2024/05/01", а сейчас хочешь ISO8601»

💭 Моё мнение: это шаг к агентам уровня «оператора», а не «бота»

До этого момента большинство LLM-агентов были чем-то вроде «интеллектуальной прослойки» между пользователем и API. Но:

  • они перегружали контекст
  • путались в инструментах
  • делали сотни запросов
  • тонули в промежуточных данных
  • не знали, как именно использовать API

Теперь Claude получает три качества, которые раньше были доступными только реальному инженеру:

  • 🧭 навигацию по инструментам
  • 🧪 кодовую оркестрацию
  • 📚 изучение паттернов использования API

Это не “ассистент разработчика”.
Это уже
оркестратор, который способен работать с десятками сервисов, как живой оператор SRE или интеграционный инженер.

И главное — всё это сделано без увеличения модели, а только за счёт реорганизации архитектуры работы с инструментами.
Это как переписать планировщик ОС — и получить +50 % к эффективности без апгрейда железа.

🔗 Ссылки

Оригинальная статья Anthropic:
https://www.anthropic.com/engineering/advanced-tool-use