229 подписчиков

Токены упали в цене на 99,7%, а счета за AI выросли в три раза. И это не парадокс — это ловушка

18 апреля18 апр

8 мин

Пока все радостно постят графики «смотрите, как подешевели миллион токенов у GPT», в индустрии тихо материализуется совсем другая история. Тоби Орд — тот самый философ и исследователь AI-безопасности — задал вопрос, который, по-хорошему, должен был задать кто-то ещё полгода назад: а какая у AI-агентов часовая ставка на задачу, и как она меняется со временем? Ответ получился неприятный. У модели o3 от OpenAI при выжимании максимума её временного горизонта эта ставка доходит до $350 в час — дороже, чем живой senior-инженер. И это при том, что модель проваливает задачу в 50% случаев. Цифры реальные. В 2023 миллион токенов GPT-4 стоил около $37,5. В 2024 с приходом GPT-4o, Claude 3 и Gemini цена провалилась до $5–15. А в 2025-м после шока от DeepSeek-R1 с его $0,55 за миллион токенов и массового перехода на архитектуру Mixture of Experts цены на базовые модели ушли в диапазон $0,02–0,55. Это падение где-то на 99,7% за два года — факт, его никто не оспаривает. Проблема в том, что отсюда все

Оглавление

📉 Сначала про дешёвые токены — тут действительно всё правда
⚙️ Ключевая находка Тоби Орда: «часовая ставка»
🎯 Sweet spot и saturation point — две точки, которые всё объясняют

📉 Сначала про дешёвые токены — тут действительно всё правда

Цифры реальные. В 2023 миллион токенов GPT-4 стоил около $37,5. В 2024 с приходом GPT-4o, Claude 3 и Gemini цена провалилась до $5–15. А в 2025-м после шока от DeepSeek-R1 с его $0,55 за миллион токенов и массового перехода на архитектуру Mixture of Experts цены на базовые модели ушли в диапазон $0,02–0,55. Это падение где-то на 99,7% за два года — факт, его никто не оспаривает.

Проблема в том, что отсюда все делают наивный вывод: если единица подешевела в 300 раз, значит и счёт должен упасть. А он взлетает. Корпоративные расходы на AI в облаке в 2024 составляли $11,5 млрд, в 2025 — уже $37 млрд. Капзатраты гиперскейлеров (AWS, Google Cloud, Azure) на AI-инфраструктуру в 2026 заложены в районе $602 млрд. Потребление токенов внутри одного Google выросло за 18 месяцев в 130 раз.

Это классический парадокс Джевонса: когда Уильям Стэнли Джевонс в 1865-м заметил, что повышение КПД паровых двигателей не снизило, а взорвало потребление угля, он описал ровно ту же механику. Эффективность не экономит ресурс — она открывает ему новые области применения, которые без этой эффективности были бы запретительно дороги.

⚙️ Ключевая находка Тоби Орда: «часовая ставка»

Тут начинается самое интересное, и я хочу разобрать методику, потому что её почему-то мало кто объясняет.

METR — это исследовательская организация, которая измеряет «временной горизонт» AI-моделей. Берётся задача по программированию, замеряется, сколько человек в среднем её решает, и проверяется, какой процент таких задач модель решит сама. «50% time horizon» — это длина задачи (в человеко-часах), с которой модель справляется с вероятностью 50%. У Claude 4.1 Opus этот горизонт около 2 часов. У более ранних моделей — минуты или секунды. График растёт экспоненциально последние 7 лет.

Но Орд задал простой вопрос: а во что нам обходится держать этот горизонт? Идея такая:

💰 Берём стоимость решения задачи прямо на 50% time horizon модели

⏱️ Делим на длительность этого горизонта в человеко-часах

📊 Получаем «часовую ставку» — сколько стоит купить у AI один час эквивалентной человеческой работы

И дальше начинается веселье. METR в своих исследованиях гоняет модели до «плато производительности» — то есть тратит на бенчмарк столько компьюта, сколько нужно, чтобы график перестал расти. Это нормально, когда тебе нужна высота плато, но бесполезно, когда ты хочешь понять, где оно начинается. Орд взял другой график METR — тот, где по оси X стоимость решения задачи, а по Y — временной горизонт. На логарифмических осях это позволяет увидеть нечто важное.

🎯 Sweet spot и saturation point — две точки, которые всё объясняют

На кривой каждой модели Орд выделяет две характерные точки:

🍬 Sweet spot — точка, где начинается убывающая отдача. До неё каждый вложенный доллар даёт прирост горизонта быстрее, чем линейно. После неё — медленнее. Математически это точка касания кривой линией постоянной часовой ставки. Это лучшая часовая ставка, которую модель вообще способна выдать.

📉 Saturation point — точка, где наклон кривой упал до 1/10 от наклона в sweet spot. Грубо говоря, начиная отсюда, чтобы увеличить горизонт на 1%, нужно платить на 10% больше. Это экономический тупик, но именно сюда METR выводит свои модели, чтобы получить красивые цифры для заголовков.

Цифры в sweet spot у разных моделей:

💵 Claude Sonnet 3.5 и Grok 4 — около $0,40/час

💵 Claude 4.1 Opus — в районе нескольких долларов в час

💵 OpenAI o3 — $40/час

💵 Человек-инженер — ~$120/час

Казалось бы, AI стабильно дешевле живого инженера. Но это в sweet spot. А вот если вы хотите выжать из модели её заголовочный максимум (тот самый 2-часовой горизонт у Opus или 1,5-часовой у o3), ставка взлетает в 10–100 раз:

🚨 GPT-5 на 45-минутных задачах — ~$13/час, а уже на 2-часовых — $120/час 🚨 OpenAI o3 на своём максимуме 1,5 часа — $350/час, дороже человека и с 50% вероятностью провала

Орд честно оговаривается, что стоимость OpenAI-моделей в анализе может быть завышена — METR на момент составления графика использовала оценки по ценам o1, а реальные API-цены могут сдвинуть кривые влево в несколько раз. Но сам тренд от этого не меняется: часовая ставка для «рекордных» горизонтов растёт экспоненциально, и растёт быстрее, чем сам горизонт.

💡 Моё личное наблюдение: это формула-1 AI-рынка

Вот здесь я хочу вклиниться со своим опытом. Я довольно плотно работаю с агентными системами — multi-agent pipelines, LangGraph, локальные модели, reasoning-модели через API. И это ровно та картина, которую ты видишь на практике.

Возьмите простую задачу: автономно починить баг в кодовой базе. Один запрос от юзера к Claude-чату — это один round-trip, пара тысяч токенов. Тот же workflow в агенте — это 50–500 вызовов модели, каждый с растущим контекстом, потому что агент носит за собой историю, scratch-padы, результаты тулзов, логи наблюдаемости. Токен на единицу полезного результата растёт не линейно, а где-то на порядки.

И это только видимая часть. Теперь о скрытой.

🧊 Невидимые 60–80% счёта, про которые молчат пресс-релизы

Большинство людей думает, что «стоимость AI» = цена инференса от OpenAI/Anthropic. В продакшене это 20–40% от реального счёта. Остальное:

🖥️ Idle GPU. Зарезервированные мощности, которые простаивают в непиковые часы. Платишь за объем (capacity), не за использование. На собственной инфраструктуре с Ollama и локальными моделями это менее болезненно, но на managed-решениях — настоящий пылесос для бюджета.

📊 Резерв под пики. Capacity закупается под худший сценарий, а не под средний. Разница между пиком и средней нагрузкой в AI-системах часто 5–10x.

🗄️ Векторные базы и передача данных. Хранить эмбеддинги и гонять их по сети — отдельная статья, которую в юнит-экономику часто вообще не закладывают. На масштабе это сотни тысяч долларов в год даже для среднего SaaS.

🔍 Observability и трейсинг. Логи вызовов, замеры задержек (latency), мониторинг качества ответов, LangSmith/LangFuse/собственные системы — 5–15% операционки. Без этого работать с агентами слепо, с этим — дорого.

🛡️ Безопасность и соответствие. Prompt injection, аудит, data residency. Отдельные команды, отдельные инструменты.

👨‍💻 Время инженеров. Самая крупная скрытая статья. Промпт-инжиниринг, eval-пайплайны, поддержка инфры, дежурства при сбоях. Одна senior-зарплата за год — это $200k+. Одна команда — миллион. И всё это никогда не попадает в заголовки «цена токена упала в 300 раз».

72% IT-руководителей в опросах признают расходы на AI «неуправляемыми» и в среднем превышают бюджет на 30%. Это не проблема токенов. Это проблема отсутствия наблюдаемости на уровне workflow.

🧨 Что из этого реально следует для рынка

Вывод Орда я бы сформулировал жёстче, чем он сам себе позволяет как академик. Если часовая ставка для пиковых горизонтов растёт экспоненциально, то заголовочный тренд METR — это не тренд практической применимости, это тренд лабораторной формулы-1. Модели показывают, что возможно в принципе, но не то, что экономически осмысленно эксплуатировать.

Практические следствия:

⏳ Разрыв между «лабораторным» и «реальным» AI будет расти. Даже если завтра появится модель с горизонтом в рабочий день, внедрять её в продакшен станет возможно через полгода-год, когда цена упадёт до приемлемой. Маркетинговые ожидания «AI заменит инженеров к 2026» систематически опережают юнит-экономику.

🏗️ Оптимизация workflow становится новой ключевой компетенцией. Не «давайте подключим GPT», а «давайте добьёмся, чтобы решение тикета стоило $0,40 вместо $4». Это инженерная дисциплина нового типа — гибрид ML-инженера, DevOps и product-экономиста.

🧩 Небольшие, узкоспециализированные модели выигрывают. Сhat-помощник, который использует дешёвую модель для 80% запросов и переключается на дорогую reasoning только при необходимости — это не костыль, это будущая архитектура. Роутинг-слой станет важнее самой модели.

📐 Правильная метрика — не цена токена, а цена рабочего действия. Сколько стоит один закрытый тикет? Одна обработанная заявка? Один написанный модуль кода? Компании, которые научатся это измерять, выживут. Компании, которые смотрят только на счёт от OpenAI, через год будут удивляться, почему их юнит-экономика в минусе.

🔮 Заключение: эпоха AI-экспериментов закончилась

Мы реально на переломе. Хайп 2023–2024 был про «давайте подключим модель и посмотрим, что получится». Это работало, пока токен стоил копейки, а задачи были маленькими. Сейчас маленький токен умножается на огромное количество вызовов в агентном режиме, и общий счёт превращается в проблему финдиректора.

Моё ощущение: следующая волна AI-стартапов будет делиться не по «какую модель используют», а по «кто научился считать стоимость полезного действия». Хайп строит оценку, юнит-экономика строит компанию. Следующие 12 месяцев мы увидим первые громкие банкротства AI-SaaS, которые не смогли закрыть разрыв между «пользователь платит $20 в месяц» и «мы тратим на него $80 в инференсе, обсервабилити и инженерном времени».

А то, что Орд обратил внимание на этот перекос — само по себе очень важно. Потому что до этой статьи почти вся публичная дискуссия крутилась вокруг «когда AI сможет делать задачи на неделю работы инженера», и никто не спрашивал «а сколько это будет стоить тому, кто её заказывает». Ответ оказался обескураживающим: в случае с o3 на пределе — $350 в час с вероятностью успеха 50%. За такие деньги можно нанять двух живых сеньоров и быть уверенным, что задача точно будет сделана.

Экспонента горизонтов впечатляет. Но экспонента их стоимости — впечатляет не меньше, просто её никто не рисует на слайдах.

📚 Источники

🔗 Оригинальное эссе Тоби Орда: Are the Costs of AI Agents Also Rising Exponentially?

🔗 Источник данных — отчёт METR по GPT-5: GPT-5 Time Horizon Measurement

🔗 График по GPT-5.1 codex из приложения: GPT-5.1 Codex Max Report

🔗 Отчёт о парадоксе Джевонса в AI и структуре скрытых затрат: Tokens got 99.7% cheaper. So why did your AI bill triple?

🔗 Академическое исследование MIT о темпах удешевления инференса: The Price of Progress: Price-Performance and the Future of AI

🔗 Развёрнутая русскоязычная версия материала: Цена прогресса: почему дешёвые токены не означают дешёвый AI