3 подписчика

Мониторинг AI-агентов в production: как не слить бюджет и держать качество под контролем

2 дня назад2 дня назад

4 мин

Вы запустили AI-агента в боевой режим. Он отвечает клиентам, обрабатывает запросы, создаёт задачи. Вроде всё работает. Но через неделю приходит счёт за API на сумму которую вы не ожидали. Или клиенты начинают жаловаться что агент тормозит. Или вообще выясняется что половина запросов падает с ошибками, а вы об этом не знали. Без мониторинга вы летите вслепую. С мониторингом — видите что происходит, предотвращаете проблемы и оптимизируете работу агента. Что важно отслеживать: Скорость работы (Latency) Время от запроса до ответа. В интерактивном чате критично — если агент думает больше 5-7 секунд, пользователь уходит. В фоновых задачах (генерация отчётов, анализ документов) скорость менее важна. Что измерять: Расход токенов (Token Usage) Это ваши деньги. Claude Opus 4.5 стоит примерно $5 за миллион входных токенов и $25 за миллион выходных. Если агент генерирует длинные ответы или обрабатывает много контекста — счета растут быстро. Что отслеживать: Стоимость (Cost Tracking) Сколько дене

Без мониторинга вы летите вслепую. С мониторингом — видите что происходит, предотвращаете проблемы и оптимизируете работу агента.

Что важно отслеживать:

Скорость работы (Latency)

Время от запроса до ответа. В интерактивном чате критично — если агент думает больше 5-7 секунд, пользователь уходит. В фоновых задачах (генерация отчётов, анализ документов) скорость менее важна.

Что измерять:

Время до первого токена (TTFT) — как быстро начался ответ
Общее время ответа
Время работы инструментов (если агент обращается к API или базам данных)

Расход токенов (Token Usage)

Это ваши деньги. Claude Opus 4.5 стоит примерно $5 за миллион входных токенов и $25 за миллион выходных. Если агент генерирует длинные ответы или обрабатывает много контекста — счета растут быстро.

Что отслеживать:

Токены на запрос (входные + выходные)
Токены за период (день/месяц)
Какие запросы самые дорогие
Процент попаданий в кэш (если используете prompt caching)

Стоимость (Cost Tracking)

Сколько денег уходит на каждый запрос, каждого пользователя, каждый день. Это нужно чтобы:

Понимать окупается ли агент
Вовремя увидеть аномальный рост расходов
Оптимизировать дорогие сценарии
Установить лимиты для пользователей

Качество работы (Quality Metrics)

Насколько хорошо агент справляется с задачами:

Процент успешно завершённых задач
Рейтинг удовлетворённости (thumbs up/down)
Частота ошибок (должна быть < 2%)
Сколько раз пришлось эскалировать на человека

Надёжность (Reliability)

Стабильно ли работает вся система:

Доступность API (в идеале 99.9%)
Не превышены ли лимиты запросов
Успешность retry при ошибках
Работают ли circuit breakers (автоматическое отключение при проблемах)

Инструменты мониторинга:

LangSmith — самое популярное решение для AI-агентов

Автоматически собирает трейсы всех запросов, показывает где агент ошибается, позволяет тестировать разные версии промптов (A/B тесты), есть playground для отладки.

Плюсы: Быстро настроить, много фич, хорошая интеграция с LangChain Минусы: Цена растёт со scale, vendor lock-in, данные на чужих серверах

Helicone — умный прокси между вами и AI API

Работает как прослойка которая перехватывает все запросы к Claude/GPT и собирает статистику. Есть open-source версия для self-hosting и облачный вариант.

Плюсы: Универсальный (работает с любым AI API), детальная аналитика затрат, семантический кэш Минусы: Добавляет latency (50-200ms), нужна своя инфраструктура для self-hosting

Свой мониторинг (PostgreSQL + Grafana)

Пишете логи в PostgreSQL, визуализируете в Grafana. Полный контроль, всё у вас, приватность гарантирована.

Плюсы: Дёшево, полный контроль, данные приватны Минусы: Нужно время на разработку, придётся поддерживать самим

Как не слить бюджет:

1. Rate Limiting (Ограничение частоты)

Ставите лимиты на пользователя:

Максимум 50-100 запросов в день
Или лимит в рублях (например 500₽/день на пользователя)
Глобальный месячный лимит на весь проект

Счётчики храните в Redis, они быстрые и дешёвые.

2. Token Limiter (Ограничение токенов)

Контролируете размер запросов и ответов:

Макс 4000-8000 токенов на вход
Оцениваете стоимость ДО запроса к API
Обрезаете с предупреждением если превышен лимит

3. Умный выбор модели

Не используйте Opus для простых задач:

Haiku — для FAQ и простых запросов
Sonnet — для средней сложности
Opus — только для сложной аналитики

Экономия может быть в 20 раз.

4. Prompt Caching

Кэшируете неизменные части промпта (системные инструкции, базу знаний). Первый запрос дороже на 25%, зато последующие дешевле на 90% и быстрее в 2-5 раз.

Работает если у вас больше 1024 токенов в кэшируемой части.

Настройка алертов:

Критичные (моментально в Telegram):

Частота ошибок > 5%
Бюджет использован на 100%
API недоступен > 5 минут
Latency > 15 секунд

Предупреждения (в течение часа в Slack):

Бюджет на 80%
Частота ошибок > 2%
Latency > 7 секунд
Один пользователь тратит > 50$ в день

Информационные (ежедневный email):

Дневные отчёты
Топ-5 самых дорогих пользователей
Недельные тренды

С чего начать:

Минимум для старта (займёт 2-3 часа):

LangSmith Free или Helicone self-hosted
Базовый дашборд (затраты/день, частота ошибок, latency)
Telegram алерт на превышение бюджета
Rate limiting по пользователям

Для серьёзного production (ещё неделя работы):

LangSmith Pro с A/B тестами
Аналитика по когортам
Circuit breakers
PagerDuty интеграция для дежурной команды

Не ждите пока что-то сломается или счёт вырастет в 10 раз. Мониторинг нужен с первого дня в production.

Полный гайд с примерами кода и настройки — в статье: https://ailean.ru/blog/monitoring-ai-agentov-v-prodakshene

#Мониторинг #AIAgents #Production #LangSmith #Helicone #Оптимизация