Найти в Дзене
Цифровой Путь

6 месяцев с AI-агентами в продакшне: хроника боли и перестройки

AI-агент в production. Тесты — 94%. Через полгода — 4 инцидента и полная перестройка. 🔴 **Месяц 2:** агент молча перестал проверять compliance. 127 заявок за 8 дней — без проверки. Причина: минорный апдейт модели от Anthropic. Промпт не менялся — поведение сдвинулось. 🔴 **Месяц 3:** «15 000» → «150 000». Галлюцинация в сумме. Промпт говорил «проверь» — модель «проверила» и подтвердила свою ошибку. 🔴 **Месяц 4:** 38 повторных вызовов за 4 минуты. $12 за одну заявку. Промпт не задал лимит retry. 🔴 **Месяц 5:** заявка-гибрид (жалоба + срочная + вопрос). Агент выбрал один маршрут из трёх, остальные потерял. Весь execution logic — в промпте на 2 800 токенов. Порядок, валидация, retry, маршрутизация. LLM следовал этому... в 72% случаев. Вынес управление в код: ✅ Порядок → граф LangGraph ✅ Валидация → Pydantic ✅ Retry → 3 попытки + backoff ✅ Маршрутизация → if/elif/else с приоритетами ✅ Состояние → typed dict Стабильность: **72% → 97%**. Инциденты за следующие 6 месяцев: **0**. Модель не
Оглавление

AI-агент в production. Тесты — 94%. Через полгода — 4 инцидента и полная перестройка.

Что случилось

🔴 **Месяц 2:** агент молча перестал проверять compliance. 127 заявок за 8 дней — без проверки. Причина: минорный апдейт модели от Anthropic. Промпт не менялся — поведение сдвинулось.

🔴 **Месяц 3:** «15 000» → «150 000». Галлюцинация в сумме. Промпт говорил «проверь» — модель «проверила» и подтвердила свою ошибку.

🔴 **Месяц 4:** 38 повторных вызовов за 4 минуты. $12 за одну заявку. Промпт не задал лимит retry.

🔴 **Месяц 5:** заявка-гибрид (жалоба + срочная + вопрос). Агент выбрал один маршрут из трёх, остальные потерял.

Корень проблемы

Весь execution logic — в промпте на 2 800 токенов. Порядок, валидация, retry, маршрутизация. LLM следовал этому... в 72% случаев.

Решение

Вынес управление в код: ✅ Порядок → граф LangGraph ✅ Валидация → Pydantic ✅ Retry → 3 попытки + backoff ✅ Маршрутизация → if/elif/else с приоритетами ✅ Состояние → typed dict

Стабильность: **72% → 97%**. Инциденты за следующие 6 месяцев: **0**.

Модель не изменилась. Архитектура — да.