Найти в Дзене

Экономика ИИ — как посчитать стоимость одного запроса к LLM в 2025 году

Оглавление

В этой статье — конкретные формулы и цифры, которые помогут понять, сколько стоит работа с нейросетями. Разберём два подхода к оплате (по токенам и за железо), покажем расчёты на реальных примерах из российской практики и расскажем, когда выгоднее переходить с API на собственные GPU.

Год назад многие всерьёз «не считали» — базовые ML-решения казались очень дешёвыми. Сегодня картина изменилась: новейшие модели-рассуждатели способны тратить тысячи долларов на одну сложную задачу. Это крайность, но она показывает масштаб проблемы.

Мы вдохновились недавней дискуссией экспертов. В этой статье — наш собственный разбор и расчёты; мнения из дискуссии приводим там, где они помогают проиллюстрировать тему.

!!! Больше кейсов на канале “AI для продакта”.

Два способа платить за ИИ

Есть всего два подхода. Либо платите за каждый запрос через API, либо ставите модель на свои серверы. У каждого — свои нюансы.

Первый способ — платить по токенам (API)

Подключаетесь к чужой модели через интернет. Платите за объём текста в токенах. Токен — это кусочек слова, примерно 3–4 символа русского текста.

Важно помнить: у многих провайдеров выходные токены (ответ модели) дороже входных. Попросили написать длинное письмо коротким запросом? Дороже. Дали подробную инструкцию для короткого ответа? Дешевле.
Начать можно за пять минут. Платите только за использованное. Никаких инвестиций в железо. Но есть проблемы — счета непредсказуемые, данные уходят на чужие серверы, при росте нагрузки становится дорого.

Второй способ — своё железо (on-premise)

Покупаете или арендуете серверы с GPU, разворачиваете модель. Всё под вашим контролем.

Опыт из видео: в организации есть внутренняя платформа, через которую проходит весь LLM-трафик. Если арендовать GPU за 200–300 тыс ₽ в месяц, но гонять туда один запрос в минуту, экономика становится катастрофической — стоимость одного токена взлетает. В таких случаях разумнее идти во внешние inference-платформы (например, OpenRouter), если кейс позволяет.

Считаем на реальных примерах

Берём конкретные цифры и считаем. Никакой магии, чистая арифметика.

Международный пример — GPT-4o mini

Простой диалог: ваш вопрос 100 токенов, ответ модели 400 токенов.
Актуальные цены (декабрь 2024): вход — $0.15 за миллион токенов; выход — $0.60 за миллион.

Считаем 1000 запросов:
Вход: 100 × 1000 = 100 000 токенов →
$0.015
Выход: 400 × 1000 = 400 000 токенов → $0.24
Итого: $0.255 за тысячу ответов.
Короткие ответы — копейки. Увеличьте длину ответа в 10 раз — получите
~$2.4 за тысячу. Возьмите полноценный GPT-4o — цены вырастут кратно.

Российская практика — YandexGPT

По документации: промпт 115 токенов, ответ 1500 токенов; в асинхроне — 0.60 ₽ за 1000 токенов. Итого ~1 ₽ за генерацию. Один запрос недорогой; миллион запросов в месяц — уже ~1 млн ₽.

GigaChat от Сбера

Для физлиц есть пакеты: GigaChat Lite — 5 млн токенов за 1000 ₽ (≈ 0.20 ₽ за 1000 токенов). Pro1.50 ₽ за 1000. Условия отличаются по режимам/лимитам.

Когда своё железо становится выгодным

Тут начинается самое интересное.

В интервью подчёркивали: низкий трафик → внешний inference, а своё железо — когда есть стабильная нагрузка.
Озвучили оценку тренда:
стоимость инференса при фиксированной сложности задачи падает примерно в 10 раз каждый год. То, что сегодня не бьётся по экономике, завтра может стать нормой.

Наш Break-even пример. Возьмём прерываемую VM с A100 в Yandex Cloud — около 115 000 ₽/мес. При цене YandexGPT 600 ₽ за миллион токенов, точка безубыточности — примерно 192 млн токенов/мес. Это около 75 токенов/сек круглосуточно.

Не дотягиваете? Оставайтесь на API. Превышаете? Считайте своё железо глубже. ( В реальности ещё будут ФОТ, поддержка, энергозатраты, даунтайм.)

Что показал опыт ряда российских компаний

Инвестиции и экономика.
Одна из крупнейших онлайн-платформ озвучила план: около 12 млрд ₽ инвестиций до 2029 года с ожидаемой выручкой ~21 млрд ₽. В их формулировке это «окупаемость ×2». При этом ежегодно команда берёт на себя обязательство принести подтверждённую выручку 1 млрд ₽ — чтобы фиксировать пользу уже сейчас, а не только «когда инференс подешевеет».

Кейс с подсказками в чатах.
Короткие ручные фразы («Ещё продаёте?», «Как забрать?») давали заметный прирост. Когда решили улучшить подсказки генеративной моделью, тексты стали длиннее, на экран помещалось меньше вариантов, пользователи реже находили нужное — и A/B-тест не показал роста (локально стало хуже).
Показательный момент прогноза: команда ожидала примерно «половинный» эффект, а в реальном A/B получили
0.46 — почти точно совпало с оценкой.

Подход к экономике инференса.
У другой технологической компании весь трафик языковых моделей проходит через внутреннюю платформу. Экономику считают отдельно на уровне «голого» инференса и на уровне конечного решения. Были случаи, когда просчёты вызывали недовольство клиентов — после этого выделили отдельную MLOps-команду, которая подбирает оптимальные конфигурации GPU (векторизатор, VLM, LLM). Смысл — не покупать десятки слабее подходящих карт, когда хватает нескольких более мощных.

Платформенный подход в финтехе.
Один из крупных банков рассматривает ИИ не как разовые проекты, а как платформу для трансформации всех продуктов. Работа идёт по двум направлениям:

  1. Платформенные продукты (распознавание и синтез речи, доступ к LLM, RAG-пайплайны и т. п.).
  2. Кастомные команды, встроенные в конкретные бизнес-подразделения (физически рядом), чтобы глубже интегрировать ИИ.

По качеству и стоимости здесь действует простое правило: сравнивать “внутренний токен или минуту” с внешним рынком. Если внутренняя разработка оказывается дороже или хуже, это сигнал к оптимизации.

Практические способы снизить расходы

  • Ограничить длину ответов. Самый простой рычаг: меньше выходных токенов — ниже счёт. Вводите max tokens, стоп-последовательности.
  • Правильная модель под задачу. Некоторые команды упираются в качество открытых моделей — и дообучают их только тогда, когда это оправдано для масштаба.
  • Редкие модели — во внешний запуск. Эксперты подтверждают: при низком трафике своё железо не окупается; в таких случаях разумнее использовать внешние платформы (например, OpenRouter).
  • Утилизация GPU как религия. Простаивающее железо убивает экономику. Пример уровня 200–300 тыс ₽/мес при «1 запрос/мин» — «токен золотой». При загрузке — нормальная себестоимость.
  • Батчинг, KV-кэш, квантизация. На он-прем дают заметный выигрыш по цене/пропускной способности.
  • Каскад моделей. Дешёвая «первой линии» (фильтр/классификатор), дорогая — только на сложные кейсы.

Главный тренд, который меняет всё

Один из экспертов в дискуссии озвучил оценку: стоимость инференса падает примерно в 10 раз каждый год (если сложность задачи остаётся прежней).
Вдумайтесь: десять раз — ежегодно. Задача, которая стоит доллар сегодня, будет обходиться в
10 центов через год, в 1 цент через два и так далее.

Вывод простой: продукты стоит планировать с оглядкой на будущую цену. Если сейчас экономика не сходится — пересчитайте её с ценами следующего года. Возможно, уже сейчас стоит начать разработку, чтобы к моменту падения стоимости быть готовыми к запуску.

Инструменты для расчётов

Калькуляторы токенов:

OpenAI

YandexGPT


Актуальные прайсы: Проверяйте цены на дату расчёта — они быстро меняются.

Что в сухом остатке

Российские команды уже прошли первую волну хайпа и теперь учатся считать деньги. Одни не поднимают редкие модели на своём железе, предпочитая внешний inference. Другие дообучают модели только тогда, когда упираются в качество и это оправдано для их масштаба. Третьи требуют подтверждённый ROI с каждого ИИ-проекта, чтобы инвестировать осознанно.

Главный вывод, с которым сложно не согласиться: ИИ — это не про игрушки, а про экономику, масштабирование и окупаемость.
Как метко сказал один из участников дискуссии:

Наши инструменты — это лишь кирпичик в фундаменте, а не готовый дом. И стоимость этого кирпичика нужно уметь посчитать.

!!! Больше кейсов на канале “AI для продакта”.