212 подписчиков

Вы переплачиваете за LLM — и, скорее всего, даже не подозреваете об этом

21 января21 янв

3 мин

История про сокращение счета за LLM на 80% — это не лайфхак и не удачное совпадение. Это симптом более глубокой проблемы: мы выбираем языковые модели так же, как когда-то выбирали VPS — «возьму самый популярный и побольше». В 2026 году такой подход уже стоит реальных денег. Предприниматель из истории Карла Лори сделал то, что делают почти все:

он выбрал OpenAI GPT-5, потому что: И какое-то время всё было нормально. Пока счёт за API не превысил $1500 в месяц. 📌 Важный момент:

GPT-5 не плохой.

Он просто почти никогда не самый выгодный. 📊 GPQA, SWE-Bench, MATH, ARC-AGI, LM Arena — всё это полезно…

Но не для твоей задачи. Почему? 🧠 Бенчмарки измеряют абстрактный интеллект, а не: Модель может быть топ-1 в reasoning, но посредственной в поддержке покупателя (customer support).

И наоборот. 👉 Единственный честный бенчмарк — это твои реальные промпты. Карл описывает подход, который выглядит очевидным — но почти никто его не делает. 🗂 Берём живые примеры

Истории диалогов, настоящие запросы

GPT-5 не плохой.

Он просто почти никогда не самый выгодный. 📊 GPQA, SWE-Bench, MATH, ARC-AGI, LM Arena — всё это полезно…

Истории диалогов, настоящие запросы

Оглавление

Почему «взять GPT-5» — не стратегия
Главный миф: «бенчмарки показывают, какая модель лучше»
Как на самом деле нужно выбирать LLM

История про сокращение счета за LLM на 80% — это не лайфхак и не удачное совпадение. Это симптом более глубокой проблемы: мы выбираем языковые модели так же, как когда-то выбирали VPS — «возьму самый популярный и побольше». В 2026 году такой подход уже стоит реальных денег.

Почему «взять GPT-5» — не стратегия

Предприниматель из истории Карла Лори сделал то, что делают почти все:
он выбрал OpenAI GPT-5, потому что:

он «дефолтный»
у него красивые бенчмарки
его используют все

И какое-то время всё было нормально. Пока счёт за API не превысил $1500 в месяц.

📌 Важный момент:
GPT-5 не плохой.
Он просто почти никогда не самый выгодный.

Главный миф: «бенчмарки показывают, какая модель лучше»

📊 GPQA, SWE-Bench, MATH, ARC-AGI, LM Arena — всё это полезно…
Но не для твоей задачи.

Почему?

🧠 Бенчмарки измеряют абстрактный интеллект, а не:

поддержку клиентов на конкретном языке
извлечение данных из HTML
генерацию писем в нужном тоне
работу с твоими форматами и ошибками

Модель может быть топ-1 в reasoning, но посредственной в поддержке покупателя (customer support).
И наоборот.

👉 Единственный честный бенчмарк — это твои реальные промпты.

Как на самом деле нужно выбирать LLM

Карл описывает подход, который выглядит очевидным — но почти никто его не делает.

Сначала — реальные данные

🗂 Берём живые примеры
Истории диалогов, настоящие запросы пользователей, edge-кейсы.
Не «идеальные промпты», а реальность.

Потом — чёткое ожидание результата

🎯 Формулируем критерии качества
Не «ответ должен быть хорошим», а:

назвать цену
предложить оформить заказ
корректно отказать по правилам

Чем точнее критерии, тем стабильнее оценка.

Затем — массовый прогон моделей

🔌 Один API — сотни моделей
Через OpenRouter прогоняются десятки и сотни LLM с одинаковым кодом.
Меняется только имя модели.

Оценка — тоже через LLM

⚖️ LLM-as-a-judge
Отдельная модель оценивает ответы по шкале, с объяснением причин.
Да, это не идеально — но на порядок лучше ручной проверки.

Цена токена — ложный ориентир

💸 Ошибка №1 — сравнивать модели по цене за токен.

Почему это не работает:

🧾 Ответы разной длины
Одна модель пишет кратко, другая — «с размышлениями».

🐌 Латентность важнее, чем кажется
GPT-5 может думать минуту.
Для поддержки клиентов это неприемлемо.

📦 Считать нужно стоимость ответа целиком
Запрос + ответ + время ожидания.

Pareto Frontier — простой способ не делать глупостей

📈 Если упростить:

у тебя есть качество
есть цена
есть модели, которые хуже и дороже одновременно

👉 Их можно сразу выкинуть.

Остаётся так называемая Pareto-граница — лучшие модели за свои деньги.
И почти всегда там не GPT-5.

Реальный итог: минус $1000 в месяц

Предприниматель из статьи:

нашёл модели с 10× дешевле
выбрал более консервативный вариант
сократил расходы в 5 раз

Без потери качества.
Без смены продукта.
Просто перестал платить «налог за дефолт».

Моё мнение: рынок LLM — это рынок облаков образца 2012 года

Сегодня происходит ровно то же, что было с AWS:

🔥 сначала — один лидер
🔥 потом — десятки альтернатив
🔥 затем — ценовая война
🔥 и выживают те, кто умеет сравнивать

Если ты не бенчмаркишь свои задачи, ты:

платишь за лишний интеллект
оплачиваешь чужие маркетинговые победы
субсидируешь чужие R&D

И это особенно больно для стартапов, где AI — ключевая статья расходов.

Что я бы сделал на твоём месте

🧪 Прогнал бы 10–20 реальных запросов
📊 Сравнил качество, цену и задержку
🧠 Выбрал не лучшую модель в мире, а лучшую для себя
🔁 Повторял бы это раз в несколько месяцев

Потому что цены падают, модели выходят каждую неделю —
а привычка «мы уже выбрали GPT-5» стоит всё дороже.

Источники

Оригинальная статья Карла Лори:
https://karllorey.com/posts/without-benchmarking-llms-youre-overpaying
Упомянутые инструменты и платформы:
https://openrouter.ai