Добавить в корзинуПозвонить
Найти в Дзене
Цифровая Переплавка

Вы переплачиваете за LLM — и, скорее всего, даже не подозреваете об этом

История про сокращение счета за LLM на 80% — это не лайфхак и не удачное совпадение. Это симптом более глубокой проблемы: мы выбираем языковые модели так же, как когда-то выбирали VPS — «возьму самый популярный и побольше». В 2026 году такой подход уже стоит реальных денег. Предприниматель из истории Карла Лори сделал то, что делают почти все:
он выбрал OpenAI GPT-5, потому что: И какое-то время всё было нормально. Пока счёт за API не превысил $1500 в месяц. 📌 Важный момент:
GPT-5 не плохой.
Он просто почти никогда не самый выгодный. 📊 GPQA, SWE-Bench, MATH, ARC-AGI, LM Arena — всё это полезно…
Но не для твоей задачи. Почему? 🧠 Бенчмарки измеряют абстрактный интеллект, а не: Модель может быть топ-1 в reasoning, но посредственной в поддержке покупателя (customer support).
И наоборот. 👉 Единственный честный бенчмарк — это твои реальные промпты. Карл описывает подход, который выглядит очевидным — но почти никто его не делает. 🗂 Берём живые примеры
Истории диалогов, настоящие запросы
Оглавление

История про сокращение счета за LLM на 80% — это не лайфхак и не удачное совпадение. Это симптом более глубокой проблемы: мы выбираем языковые модели так же, как когда-то выбирали VPS — «возьму самый популярный и побольше». В 2026 году такой подход уже стоит реальных денег.

Почему «взять GPT-5» — не стратегия

Предприниматель из истории Карла Лори сделал то, что делают почти все:
он выбрал
OpenAI GPT-5, потому что:

  • он «дефолтный»
  • у него красивые бенчмарки
  • его используют все

И какое-то время всё было нормально. Пока счёт за API не превысил $1500 в месяц.

📌 Важный момент:
GPT-5
не плохой.
Он просто
почти никогда не самый выгодный.

Главный миф: «бенчмарки показывают, какая модель лучше»

📊 GPQA, SWE-Bench, MATH, ARC-AGI, LM Arena — всё это полезно…
Но
не для твоей задачи.

Почему?

🧠 Бенчмарки измеряют абстрактный интеллект, а не:

  • поддержку клиентов на конкретном языке
  • извлечение данных из HTML
  • генерацию писем в нужном тоне
  • работу с твоими форматами и ошибками

Модель может быть топ-1 в reasoning, но посредственной в поддержке покупателя (customer support).
И наоборот.

👉 Единственный честный бенчмарк — это твои реальные промпты.

Как на самом деле нужно выбирать LLM

Карл описывает подход, который выглядит очевидным — но почти никто его не делает.

Сначала — реальные данные

🗂 Берём живые примеры
Истории диалогов, настоящие запросы пользователей, edge-кейсы.
Не «идеальные промпты», а реальность.

Потом — чёткое ожидание результата

🎯 Формулируем критерии качества
Не «ответ должен быть хорошим», а:

  • назвать цену
  • предложить оформить заказ
  • корректно отказать по правилам

Чем точнее критерии, тем стабильнее оценка.

Затем — массовый прогон моделей

🔌 Один API — сотни моделей
Через
OpenRouter прогоняются десятки и сотни LLM с одинаковым кодом.
Меняется только имя модели.

Оценка — тоже через LLM

⚖️ LLM-as-a-judge
Отдельная модель оценивает ответы по шкале, с объяснением причин.
Да, это не идеально — но на порядок лучше ручной проверки.

Цена токена — ложный ориентир

💸 Ошибка №1 — сравнивать модели по цене за токен.

Почему это не работает:

🧾 Ответы разной длины
Одна модель пишет кратко, другая — «с размышлениями».

🐌 Латентность важнее, чем кажется
GPT-5 может думать минуту.
Для поддержки клиентов это неприемлемо.

📦 Считать нужно стоимость ответа целиком
Запрос + ответ + время ожидания.

Pareto Frontier — простой способ не делать глупостей

📈 Если упростить:

  • у тебя есть качество
  • есть цена
  • есть модели, которые хуже и дороже одновременно

👉 Их можно сразу выкинуть.

Остаётся так называемая Pareto-граница — лучшие модели за свои деньги.
И почти всегда там
не GPT-5.

Реальный итог: минус $1000 в месяц

Предприниматель из статьи:

  • нашёл модели с 10× дешевле
  • выбрал более консервативный вариант
  • сократил расходы в 5 раз

Без потери качества.
Без смены продукта.
Просто перестал платить «налог за дефолт».

Моё мнение: рынок LLM — это рынок облаков образца 2012 года

Сегодня происходит ровно то же, что было с AWS:

🔥 сначала — один лидер
🔥 потом — десятки альтернатив
🔥 затем — ценовая война
🔥 и выживают те, кто умеет сравнивать

Если ты не бенчмаркишь свои задачи, ты:

  • платишь за лишний интеллект
  • оплачиваешь чужие маркетинговые победы
  • субсидируешь чужие R&D

И это особенно больно для стартапов, где AI — ключевая статья расходов.

Что я бы сделал на твоём месте

🧪 Прогнал бы 10–20 реальных запросов
📊 Сравнил
качество, цену и задержку
🧠 Выбрал
не лучшую модель в мире, а лучшую для себя
🔁 Повторял бы это раз в несколько месяцев

Потому что цены падают, модели выходят каждую неделю —
а привычка «мы уже выбрали GPT-5» стоит всё дороже.

Источники