211 подписчиков

Claude учится работать как инженер: три шага к настоящим ИИ-агентам

25 ноября 202525 ноя 2025

3 мин

Anthropic снова двинула индустрию вперёд: представила три бета-функции, которые превращают Claude из «модели с инструментами» в агента, который умеет сам находить нужные API, работать с ними кодом и понимать правильные шаблоны вызовов. То, что раньше требовало 100K токенов в контексте и цепочек из десятков инференсов, теперь укладывается в 8–10K токенов и выполняется в разы быстрее. И если честно — это один из тех апдейтов, который тихо, но кардинально меняет то, как должен выглядеть современный ИИ-агент. Даже не интерфейс, а архитектуру мышления машины. Сегодня разработка ИИ-агента похожа на подключение дикого количества расширений: Slack, Jira, GitHub, Google Drive, Grafana, Sentry, ваши внутренние MCP-сервера… На практике это означает: Anthropic решила эту проблему так же, как инженеры решают её в больших системах: индексацией, ленивой загрузкой и кодовой оркестрацией. Раньше было так:

все MCP-инструменты заранее загружается в контекст, даже если вам нужно всего два. Теперь Claude р

Оглавление

🧠 Агент, который должен работать с тысячами инструментов
🔎 Tool Search Tool: модель сама ищет инструменты, а не вы
💡 Почему это важно технически

Anthropic снова двинула индустрию вперёд: представила три бета-функции, которые превращают Claude из «модели с инструментами» в агента, который умеет сам находить нужные API, работать с ними кодом и понимать правильные шаблоны вызовов.

То, что раньше требовало 100K токенов в контексте и цепочек из десятков инференсов, теперь укладывается в 8–10K токенов и выполняется в разы быстрее.

И если честно — это один из тех апдейтов, который тихо, но кардинально меняет то, как должен выглядеть современный ИИ-агент. Даже не интерфейс, а архитектуру мышления машины.

🧠 Агент, который должен работать с тысячами инструментов

Сегодня разработка ИИ-агента похожа на подключение дикого количества расширений: Slack, Jira, GitHub, Google Drive, Grafana, Sentry, ваши внутренние MCP-сервера…

На практике это означает:

💬 сотни описаний инструментов в контексте
📦 десятки тысяч токенов до начала диалога
🔍 схожие имена и ошибки выбора: slack.sendMessage vs slack.notifyUser
📉 токен-голод, когда контекст становится критическим ресурсом

Anthropic решила эту проблему так же, как инженеры решают её в больших системах: индексацией, ленивой загрузкой и кодовой оркестрацией.

🔎 Tool Search Tool: модель сама ищет инструменты, а не вы

Раньше было так:
все MCP-инструменты заранее загружается в контекст, даже если вам нужно всего два.

Теперь Claude работает иначе:

🔍 ищет инструменты по описанию
📥 загружает их лениво
🧽 не захламляет контекст лишним

Результат — до 85 % экономии токенов.
Опус 4 на огромных библиотеках MCP вырос в точности с 49 % → 74 %, Opus 4.5 — с 79,5 % → 88,1 %.

Это уже похоже на то, как работает IDE или OS: инструменты подгружаются только когда нужны.

💡 Почему это важно технически

Экономия сотен долларов на длинных сессиях.
Prompt caching работает эффективнее, потому что тяжёлые определения не попадают в системный промпт.
Агент может работать с тысячами инструментов без разрыва по контексту.

🐍 Programmatic Tool Calling: агент пишет код и управляет инструментами сам

Это самый интересный апдейт — и самый недооценённый.
Модели всегда страдали от «контекстного загрязнения»:

запрос 20 отчётов
десятки мегабайт данных
все это появляется в контексте
затем модель вынуждена глазами (логикой) искать в массиве нужное

Это медленно, дорого и ошибочно.

Anthropic сделали то, что лежало на поверхности:
разрешили агенту писать Python-код, который вызывает инструменты напрямую, без возврата промежуточных данных в контекст.

Пример из статьи (сокращённо)

🧾 получаем 20 сотрудников
📊 собираем расходы параллельно
📉 суммируем и сравниваем с бюджетами
➡️ контексту возвращается только результат: 2–3 нарушителя бюджета

Запрос обрабатывает тысячи строк данных, но модель видит лишь 1KB итоговых данных.

Технические выигрыши:

⚡ минус десятки инференсов — оркестрами (orchestration) идёт внутри скрипта
📉 –37 % токенов в сложных задачах (по данным Anthropic)
🎯 меньше ошибок, потому что логика явно прописана в коде, а не в естественном языке

И вот это уже похоже на модель в роли оператора (“LLM-as-an-operator”):
модель пишет код, код вызывает API, API возвращает данные, код сворачивает их и даёт модели итог.

📘 Tool Use Examples: LLM наконец понимает, как именно вы хотите использовать API

JSON Schema описывает структуру, но не:

💢 обязателен ли e-mail при “критической” ошибке
🕒 в каком формате писать даты
🔖 как правильно заполнять подписи (labels)
📞 когда добавлять вложенный reporter.contact
🔺 какие параметры коррелируют между собой

Tool Use Examples добавляют примеры, и Claude учится так же, как разработчик:

один короткий пример
один полный
один минималистичный

Anthropic заявляет рост точности формирования параметров с 72 % → до 90 %. Это огромный скачок.

На практике это критично:

не сломаются CI/CD пайплайны
корректно будут заполняться Jira/Sentry/Splunk API
исчезают многолетние проблемы с «раньше ты принимал "2024/05/01", а сейчас хочешь ISO8601»

💭 Моё мнение: это шаг к агентам уровня «оператора», а не «бота»

До этого момента большинство LLM-агентов были чем-то вроде «интеллектуальной прослойки» между пользователем и API. Но:

они перегружали контекст
путались в инструментах
делали сотни запросов
тонули в промежуточных данных
не знали, как именно использовать API

Теперь Claude получает три качества, которые раньше были доступными только реальному инженеру:

🧭 навигацию по инструментам
🧪 кодовую оркестрацию
📚 изучение паттернов использования API

Это не “ассистент разработчика”.
Это уже оркестратор, который способен работать с десятками сервисов, как живой оператор SRE или интеграционный инженер.

И главное — всё это сделано без увеличения модели, а только за счёт реорганизации архитектуры работы с инструментами.
Это как переписать планировщик ОС — и получить +50 % к эффективности без апгрейда железа.

🔗 Ссылки

Оригинальная статья Anthropic:
https://www.anthropic.com/engineering/advanced-tool-use