Какие крупные языковые модели (LLM) можно гонять практически даром, а за какие придётся продать почку? Давайте разберёмся и составим рейтинг – от халявных решений до тех, что опустошат ваш бюджет. И помните: цена за токен не всегда отражает ум модели, но часто отражает аппетиты её создателей.
Рейтинг LLM-API по стоимости токенов (от дешевле к дороже)
- Бесплатный рай для любителей LLM – $0 за миллион токенов. На самом дне (в хорошем смысле) у нас полностью бесплатные варианты. Сюда входит все open-source модели, которые вы можете запустить сами или через сервисы с халявным доступом:
Cloud.ru Evolution Foundation Models (Россия) – сейчас раздают доступ к ~20 открытым моделям совершенно бесплатно (акция длится до определённой даты). Хотите погонять 120-миллиардный GPT-OSS или гиганта Qwen3-480B? Пожалуйста, ни копейки за токены – плати только за электричество (и кофе, пока ждёшь ответ модели). Это фактически шведский стол из LLM: бери сколько съешь. Конечно, вечно праздник не продлится, но сам факт – 0 долларов за токен – топ по доступности.
Open-source LLM на своём железе – старый добрый способ. Модели вроде Llama 2 от Meta (70B параметров) или свежие европейские Mistral 7B и другие открытые мозги доступны бесплатно: скачал весы – и вперед. Токены стоят ноль, если не считать, что ваша видеокарта крутится на полную. Зато никаких счётчиков и лимитов: сами себе провайдеры. Конечно, чтобы приблизиться к уровню GPT-4, придётся запускать самые большие из открытых (а они прожорливые и медленные). Но бесплатно – магическое слово, ради которого можно потерпеть.
Бесплатные онлайн-агрегаторы – существуют сервисы, где можно погонять разные модели без платы, зачастую в тестовом режиме. Например, Hugging Face позволяет попробовать некоторые модели через веб-интерфейс или Spaces бесплатно (правда, с ограничениями по скорости и количеству запросов). OpenRouter и ChatRU дают доступ к ряду открытых моделей через единый API бесплатно – регистрируйся и пользуйся. YandexGPT и SberGPT агрегаторы предлагают отечественные модели (типа Сберовского GigaChat) прямо в своих продуктах – тоже без прямой платы за токены для конечного пользователя. В общем, если захотеть, можно найти и перекусить дармовыми токенами – крупицы производительности великих моделей, но зато кошелёк цел. - Практически даром (токены за копейки) – <$0.50 за миллион токенов. Следующая ступень – решения, где стоимость токена настолько мала, что её почти не замечаешь. Это предложения больших игроков и новых стартапов, стремящихся захватить рынок низкой ценой:
Google – верите или нет, Gemini (PaLM) от Google можно использовать почти за символическую плату. Для разработчиков у них есть бесплатный лимит (если вы не против поделиться своими запросами на благо улучшения моделей Google). А платно – тарифы шокирующе низкие: например, Gemini 2.0 Flash оценивается примерно в $0.10 за 1M входных токенов и $0.40 за 1M выходных. То есть 0.0001$ за токен, ощущаете разницу? Google явно решил взять массовостью и демпингом: “наши токены дешевле чипсов”. Даже более мощные варианты Gemini стоят считанные центы – чтобы вы не сильно думали и сразу бежали от GPT-4 к ним. Подвоха два: во-первых, ваши данные помогают Google становиться ещё умнее (если не отключить эту опцию), во-вторых, модель-то новая – пока без репутации “супер-интеллекта”. Но по цене – почти бесплатно.
Китайские LLM-распродажи – китайские компании тоже любят устраивать «Большую распродажу токенов». Например, Alibaba Cloud с моделью Qwen изначально предлагала входящие токены по $0.25 за миллион (да-да, 25 центов) – буквально даром. Даже более свежая версия Qwen 3 сейчас обходится порядка $1.6 за 1M входа и $6.4 за 1M выхода, что всё ещё в разы дешевле западных аналогов. Другие китайские новички – DeepSeek V3, Moonshot Kimi – идут тем же путём. О них мало подробностей, но можно быть уверенным: или бесплатно, или очень дёшево дадут попробовать, лишь бы привлечь внимание к своим «убийцам GPT». Китайцы понимают: чтобы переманить пользователей от OpenAI, надо бросить цену токенов на пол – что они успешно и делают. Так что, если бюджет близок к нулю, а по-китайски вы читать готовы – вариант есть.
xAI Grok – особый случай почти бесплатного использования. Это мозг от самого Илона Маска (компания xAI), которому не терпится поспорить с ChatGPT. Цена вопроса? Формально бесплатно, но есть нюанс: доступ сейчас получают подписчики X Premium (бывший Twitter Blue) за ~ $16 в месяц. За эти деньги вам открывается Grok-4 (модель, обученная, как говорят, «на мемах» и стремящаяся быть остроумной). Если вы фанат безлимитного общения с ИИ – подписка выходит даже выгодной: никаких тебе подсчётов токенов, болтай сколько влезет (пока Илона не перемкнёт и он не введёт лимиты). В пересчёте на миллион токенов при активном использовании это копейки. Но придётся смириться, что вы платите не за конкретный объём, а за вход в клуб избранных болтунов с ИИ. Тоже модель, своего рода.
Молодые и шустрые – в эту почти-бесплатную зону попадают и некоторые азиатские стартапы, типа MiniMax (делает lightweight-LLM для IoT) или проекты вроде Mixtral/Mistral в Европе (семантически “бесплатно, потому что open-source”). Их стратегия – дать вам модель поменьше, но задаром или за символическую плату. Качество, конечно, не совсем GPT-4, зато ни рубля за разумного холодильника (MiniMax, привет!). В общем, «бесплатно, но с компромиссами» – девиз этого уровня. - Бюджетные LLM-API (низкая стоимость) – ~$1–5 за миллион токенов. Поднимаемся чуть выше: здесь токены уже не совсем бесплатно, но всё ещё очень дёшево относительно гигантов. В эту категорию входят несколько коммерческих сервисов, решивших конкурировать ценой, оставаясь при этом в серьезном LLM-бизнесе:
Cohere (Канада) – специализируется на моделях для бизнеса и текста. Их модель Command когда-то была ближе к GPT-3.5, зато ценник смешной: $1 за 1M входных и $2 за 1M выходных токенов. То есть 0.001$ за токен на вводе. Это примерно в 30 раз дешевле, чем токены GPT-4! Более продвинутые версии Cohere (например, Command модель с улучшенной «R+»-серией) подорожали, но всё равно счет идёт на $10–15 за миллион, а не на сотни. Cohere честно признаёт: они не топ по мощности, зато экономят бюджет. Если GPT-4 – это ресторан высокой кухни, то Cohere – добротная столовая: может, без изысков, зато по карману многим и порции сытные.
Amazon Web Services (AWS) – Titan и друзья. AWS долго догонял в гонке LLM и вместо одного GPT-клона предложил платформу Bedrock, где есть куча моделей от партнёров. Их собственный Titan – модель скромнее GPT-4, зато очень дешёвая в использовании. По инсайдерским оценкам, токен Titan может стоить порядка $0.0003, то есть $300 за миллиард или $0.30 за миллион – практически халява. Amazon явно субсидирует свои модели, лишь бы вы разворачивали всё в их облаке. Кроме Titan, через AWS можно вызвать, например, Jurassic от AI21 или Claude от Anthropic – цены те же, что у оригинальных провайдеров (не бесплатно). Но сам факт: свой Titan они отдают почти даром. Правда, достать его не так просто – нужен корпоративный аккаунт и всё такое. Но если уже “сидите” на AWS, добавить LLM в приложение выйдет совсем недорого, в особенности по сравнению с OpenAI.
NVIDIA NeMo – видеокарточный гигант тоже завёл свой сервис LLM. Они предлагают модели, заточенные под работу на их же GPU-инфраструктуре. Сюрприз: NVIDIA дает 2 миллиона токенов бесплатно на старт, а далее берет что-то около $2 за миллион токенов (цифры варьируют в зависимости от режима). Да-да, примерно $0.002 за токен. Видно, что зарабатывают они всё равно на продаже железа, а за модели дерут немного, чтоб народ попробовал. NeMo интересен тем, что там можно запустить кастомные открытые модели, оптимизированные под TensorRT и прочие плюшки NVIDIA. По сути, цена равна себестоимости GPU-часов. Так что токены тут недорогие, хотя инфраструктура подразумевается солидная (речь о развёртывании на их облаке с A100/H100). В общем, дёшево и сердито, особенно если нужны свои доработки модели.
Alibaba Qwen (новые версии) – хотя мы уже упоминали китайские цены, отметим тут свежие крупные модели. Qwen-3 论文 (который на 480B параметров) пока в предпросмотре, но Alibaba обещает гибкое ценообразование. Скорее всего, они останутся в низком диапазоне. Их предшественник Qwen-14B был доступен почти бесплатно для исследований. Можно ожидать, что коммерческий Qwen на Alibaba Cloud будет стоить считанные доллары за миллион токенов, чтобы привлечь западных клиентов. Китай очень хочет, чтобы вы выбрали их экосистему вместо OpenAI – а значит, ценник сделают сладким.
Другие недорогие предложения – сюда же попадают независимые платформы, предлагающие LLM-as-a-Service по низкой цене. Например, Together AI или HyperCLOVA/Upstage (Корея), Scaleway Generative AI (Европа) – все они стараются держать стоимость близкой к стоимости вычислений. Они знают: никто не пойдёт к малоизвестному провайдеру, если у него цены как у OpenAI. Поэтому, как правило, $1–5 за миллион токенов – их цель. Качество моделей может быть разным (часто это обёртки над open-source типа Llama 2), но по цене вы выиграете. Эти сервисы привлекают стартапы и разработчиков, которые хотят сэкономить каждую копейку и готовы немного поступиться мощью ради экономии. Вывод: бюджетные LLM живы и здоровы, выбор есть. - Единый доступ ко всем моделям (маркетплейсы и агрегаторы) – цена по выбору. В отдельную категорию выделим платформы-агрегаторы, где доступны десятки моделей от разных разработчиков через единый API. Здесь стоимость варьируется от нуля до уровня премиум – в зависимости от выбранной модели:
Hugging Face, Replicate, Baseten и др. – эти ребята предлагают инфраструктуру для быстрого деплоя и доступа к моделям. Hugging Face Hub позволяет вызвать как открытые модели (бесплатно или по очень низкой цене, покрывающей только аренду GPU), так и коммерческие (цена устанавливается провайдером модели). Replicate продаёт время работы моделей: запустил большую модель – платишь за секунды работы GPU. В пересчёте на токены может выйти и очень дёшево (для маленьких моделей), и довольно дорого (для больших вроде Llama2-70B, там счёт может приблизиться к GPT-4). Baseten, Fireworks, Novita, HyperBolic – все они дают схожий сервис: выбери любую из 100+ моделей, плати либо абонентку, либо за запросы. Плюс таких платформ – гибкость и удобство (не нужно самому поднимать сервера для каждой новой модели). Минус – возможная наценка за удобство: иногда чуть дороже, чем прямой доступ к той же модели у оригинального провайдера. Тем не менее многие агрегаторы держат цены конкурентными, особенно на open-source модели (фактически оплачиваешь только облачные мощности). В общем, маркетплейс = любые модели, любые цены. Можно найти и бесплатный демо-доступ, и дорогущую эксклюзивную модель.
OpenRouter, OpenAPI-прокси и другие – сюда относятся проекты типа OpenRouter, AITunnel, Vercel AI Gateway, ChatRU и даже корпоративные магазины (AWS Marketplace, Microsoft Azure Marketplace). Их идея – единая точка входа к разным LLM. OpenRouter, например, может маршрутизировать запросы к OpenAI, Anthropic, Cohere, Azure и т.д. по одному API. Стоимость при этом либо такая же, как у исходного провайдера, либо включает небольшую комиссию (иногда нет комиссии для бесплатных моделей). Например, через OpenRouter можно бесплатно дергать те же open-source модели, или платно – GPT-4 (списывается с вашего баланса OpenAI, либо покупаете кредиты OpenRouter по номиналу). Vercel AI Gateway и ему подобные вообще предоставляют прокси без наценки: вы просто подключаете свои ключи разных сервисов и вызываете их через одну библиотеку, экономя время, но не деньги (цена токена ровно как у провайдера). AITunnel и ChatRU решают другую задачу – обход региональных ограничений (например, если OpenAI официально недоступен, они проксируют запрос). Тут обычно тоже платишь как за исходный API, плюс возможно небольшая плата за сервис. Корпоративные маркетплейсы (AWS, Azure) включают стоимость модели в ваш общий счёт за облако. В итоге, агрегаторы сложно вставить строго в ряд по цене – они покрывают весь спектр. Можно через один сервис получить и бесплатные токены (от какой-нибудь Llama2), и дорогущие (от GPT-4). В среднем же, за удобство агрегатора вы платите копейки или не платите вовсе. Главное – он упрощает жизнь разработчика, а там уж вы сами решаете, какие модели по каким ценам дергать. - Премиум-сегмент LLM (дорого, богато) – ~$30–60+ за миллион токенов. Теперь – лига элиты. Тут цены на порядок выше ранее упомянутых, зато и возможности самые передовые (по заявлению разработчиков). Если вам нужна максимальная мощь без компромиссов, встречайте топ-модели и их топ-цены:
OpenAI GPT-4 – легендарный (и дорогущий) GPT-4 от OpenAI. Цена давно известна каждому, кто пробовал прикрутить его к своему проекту: $0.03 за 1000 входных токенов и $0.06 за 1000 выходных. Это примерно $30k/$60k за миллиард, или $30/$60 за миллион токенов. Против какого-нибудь Cohere с его $1 – разница колоссальная. Почему так дорого? Ну, GPT-4 до сих пор считается почти эталоном по качеству генерации: выдаёт крайне осмысленные ответы, хорошо кодит, рассуждает – словом, топ-класс. OpenAI знает цену своему детищу и дешево не отдаст. Более того, вариант GPT-4 с расширенным контекстом 32k стоит вдвое дороже (там уже $0.06/$0.12 за 1k токенов). А уж про предполагаемый GPT-4 Turbo или GPT-4 «optimised» пока можно только мечтать – цены снижаются неохотно. В Azure на площадке Microsoft эти же модели стоят примерно столько же (мелкие различия, плюс плата за безопасность и корп-интеграцию, но суть та же: дорого). Итого, GPT-4 – один из самых дорогих по токенам. Кажется, OpenAI тихо намекает: "хочешь нашего качества – будь добр раскошелись". Мощная экосистема, куча инструментов, но и счёт за использование приходит внушительный.
Anthropic Claude 2 – конкурент GPT-4 от стартапа Anthropic. Позиционируется как более безопасный и длинноконтекстный AI. Цена чуть получше GPT-4 на входе, но может быть даже выше на выводе. Конкретно, модель Claude 2 (100k context) оценивается примерно в $0.015 за 1k входных токенов и $0.032–0.075 за 1k выходных (цифры варьируются для разных версий Claude). То есть входные примерно $15 за миллион (вдвое дешевле GPT-4), а выходные могут доходить до $75 за миллион (дороже GPT-4). Если ваш запрос краткий, а ответ простыня – Anthropic может выйти даже дороже OpenAI. Они отдельно считают еще и так называемые «thinking tokens» (токены размышлений, когда модель переваривает большой prompt), что увеличивает счёт. Почему же люди идут к Anthropic? Во-первых, контекст 100k – уникальное предложение (GPT-4 максимум 32k), можно засунуть целую книгу в один запрос. Во-вторых, упор на корпоративную безопасность: Claude меньше рискнет сморозить что-то токсичное и больше поясняет свои ответы. Для компаний это важно, и они готовы платить премию. Но по сухим цифрам – Claude в высшей ценовой лиге, рядом с GPT-4. Бесплатно его можно попробовать только в пределах демо-лимитов, а серьезное использование – приготовьтесь выкладывать тысячи долларов за большие объемы текста.
Aleph Alpha Luminous (Германия) – европейский ответ американо-китайской гегемонии. Компания Aleph Alpha предлагает свои модели семейства Luminous с хостингом в ЕС (что важно для тех, кто парится о GDPR и приватности). Ценник у них тоже не для слабонервных: самая большая версия Luminous-supreme оценивалась примерно в $0.03 за токен (около $30 за миллион), то есть на уровне GPT-4. Более мелкие (Luminous-extended, base) – чуть дешевле, но все равно счета идут на десятки долларов за миллион токенов. Для сравнения с бесплатными: за цену одного токена у Luminous, можно было бы получить ~30 000 токенов у Cohere или Google Gemini flash. Но Aleph Alpha берет другим: европейское качество и конфиденциальность. Их модели говорят по-немецки лучше, чем многие американские аналоги, и компании из ЕС готовы переплатить, лишь бы данные не утекали за океан. Плюс они предлагают фишки типа мультимодальности и интерпретируемости. Короче, нишевый премиум-продукт: дорого и сравнительно узкоспециализированно. В рейтинге цен – конечно, верхние строчки.
API Big Tech по полной цене – здесь отметим и прочие дорогие варианты, когда платишь “как за бренд”. Например, Microsoft Azure OpenAI Service: по сути тот же GPT-4/GPT-3.5, но иногда с наценкой за enterprise-обёртку (впрочем, цены сопоставимы с OpenAI, просто минимальный порог месячного потребления может быть высокий). Google Gemini Pro (самая мощная версия, когда выйдет из превью) тоже планируется недешевой по сравнению с базовыми: сейчас проглядывают тарифы около $1.25 за 1M входа и $10 за 1M выхода для больших задач, а это уже ближе к дорогому сегменту (хотя все еще дешевле GPT-4 раза в 5, посмотрим, может финальная версия поднимется в цене). IBM Watsonx и прочие старые игроки AI тоже не стесняются ставить прайс enterprise-уровня (часто по индивидуальным договорам). В целом, если видите слова "enterprise", "industrial grade", "гарантированное SLA" – готовьте бюджет: стоимость токена будет на вершине рынка. - Экстрим и будущее: ещё дороже? – >$75 за млн токенов (предположительно). Казалось бы, куда уж выше, но давайте заглянем за горизонт:
GPT-5 (OpenAI) – о нём только слухи, но все ожидают от него чудес. А чудеса, как известно, дешёвыми не бывают. Если GPT-5 действительно появится и превзойдёт GPT-4 по возможностям, вполне вероятно, что цены вырастут. Либо OpenAI пойдёт по пути увеличения токенов в пакете (например, еще больший контекст) – тогда и цена за сессию может увеличиться. Нетрудно представить заголовки в духе: «GPT-5: ещё умнее, ещё дороже – стоимость токена бьёт рекорды». Конечно, можно надеяться на обратное (оптимизации, удешевление), но бизнес-логика OpenAI подсказывает обратное. Так что готовьтесь: GPT-5 может стать новым “королём дорог” среди LLM. Возможно, его будут продавать как премиум-услугу с подпиской, но если пересчитать на токены – глаз задергается.
Специализированные решения и on-prem – есть категория, где прямого сравнения по токенам нет, но явно очень недёшево. Например, Cerebras AI – они предлагают доступ к своим сверхмощным компьютерам (целый вафер вместо привычных GPU) для ускоренного инференса огромных моделей. Цена нигде публично не указана – явный признак, что “дорого, звоните в отдел продаж”. Возможно, за каждый миллион токенов на Cerebras придётся платить как за небольшую машину – зато модель отбарабанит ответ за миллисекунды. Похожая история с некоторыми корпоративными платформами: GPTZator от Lad IT (Россия) – это не столько API с ценой за токен, сколько корпоративная платформа. Вы платите, условно, за лицензии или за установку, возможно очень крупную сумму, а уж потом гоняете сколько влезет своих токенов локально. Для больших компаний это может быть выгодно (фиксированные расходы), но входной порог – сотни тысяч $, в пересчёте на токены окупится не скоро. Reka AI – стартап, делающий упор на прозрачность и рекомендации, скорее всего тоже работает по схемам типа подписки или проекта, а не по 0.0001$ за токен. То есть там индивидуальные ценники, которые обычно рассчитаны на солидный бюджет.
Вывод по верхам: на самом верху ценового спектра оказываются либо супер-новинки, либо корпоративные решения, где токен не продаётся поштучно. Это мир, где за доступ к лучшему ИИ вы платите либо очень много за каждое слово, либо очень много сразу, чтобы слова шли “бесплатно” потом. Если честно, даже $0.06 за токен (как у GPT-4) пару лет назад звучало безумием, а сейчас мы спокойно это обсуждаем. Куда катится мир? Правильно – к ещё более умным и дорогим моделям. Так что если вдруг почувствовали, что GPT-4 вам недостаточно дорого, подождите – индустрия уже готовит способы облегчить ваш кошелёк ещё сильнее.
Итого: разброс цен за токен у LLM – фантастический, от нуля до каких-то астрономических величин. Бесплатные и open-source модели дают шанс каждому поэкспериментировать без денег, «почти бесплатные» сервисы демонстрируют агрессивную конкуренцию (особенно со стороны Китая и новых игроков), а топовые ИИ заставляют продумывать бюджет заранее. Выбор во многом зависит от ваших задач: где-то хватит и дешёвой модели за $1, а где-то без дорогого GPT-4 не обойтись. Хорошая новость в том, что конкуренция растёт – надеемся, цены всё же будут стремиться вниз (хотя OpenAI и Anthropic с этим не спешат). Ну а пока – вот такой расклад. Решайте сами, что для вас важнее: сэкономить на токенах или получить максимум интеллекта за каждую уплаченную копейку.