1 подписчик

Retry tax: скрытая причина, по которой AI обходится дороже, чем вы думаете

2 мая2 мая

2 мин

Оглавление

Что случилось
Почему так вышло
Простой пример

# Retry tax: скрытая причина, по которой AI обходится дороже, чем вы думаете

Что случилось

Разработчик из США получил счёт $27 500 от OpenAI за месяц. Его SaaS-продукт для клиентской поддержки тратил на AI 60% всей выручки. Все посоветовали перейти на DeepSeek — модель, которая на бумаге стоит в разы дешевле.

Он перешёл. И сэкономил не 94%, как ожидал, а всего 60%.

Почему так вышло

Дешёвая модель дала 87% правильных ответов с первого раза. Дорогая давала 95%. Разница — всего 8%.

Но каждый неправильный ответ запускает повторный запрос. Это называется **retry** — повторная попытка получить правильный ответ.

Каждый retry стоит денег. Причём обычно дороже первого запроса: к нему добавляется описание ошибки, дополнительный контекст.

Простой пример

Представьте, что один запрос стоит 1 рубль.

С дорогой моделью: из 100 запросов 5 потребуют retry. Итого: ~107 рублей.

С дешёвой моделью (пусть она стоит 15 копеек за запрос): из 100 запросов 13 потребуют retry, иногда по 2-3 раза. Итого: ~21 рубль вместо ожидаемых 15.

Экономия есть, но она гораздо меньше, чем обещали.

Три причины, по которым retry стоит так дорого

Контекст растёт

Каждая повторная попытка включает информацию о предыдущих ошибках. Второй retry обрабатывает больше текста, чем первый. Третий — ещё больше.

Backoff добавляет время

Системы часто ждут перед повторной попыткой — 1 секунду, потом 2, потом 4. Пока система ждёт, другие задачи копятся.

Retry бесполезен без изменений

Если послать тот же запрос той же модели — скорее всего, получишь тот же неправильный ответ. Повторение без изменений — пустая трата денег.

Что делать

Проверять ответ перед использованием

Простая проверка формата (правильный ли JSON, есть ли обязательные поля) ловит ошибки до того, как они запустят дорогой цикл повторов.

Разделять задачи

Не все задачи одинаково сложные. Простую классификацию может делать дешёвая модель. Сложное рассуждение — только дорогая.

Считать реальную стоимость

Не цену за токен, а цену за правильный ответ. Включая все повторные попытки.

Ставить лимиты

Если после 3 попыток ответ всё ещё неправильный — остановиться. Четвёртая попытка с тем же запросом не поможет.

Главный вывод

Переключение на дешёвую модель — это не решение проблемы больших счетов за AI. Это как переехать в дешёвую квартиру, когда у вас протекает кран. Аренда меньше, но кран по-прежнему течёт.

Настоящее решение — починить пайплайн: проверять ответы, разделять задачи по сложности, мониторить retry. Тогда и дешёвая модель даст настоящую экономию.