Вы общаетесь с ChatGPT, Claude или Gemini на русском языке. На ценнике провайдера — одна ставка за миллион токенов, одинаковая для всех. Кажется, что всё честно. Но ваш запрос на русском языке стоит в 2.5 раза дороже точно такого же запроса на английском. Если вы пишете на хинди — в 5 раз дороже. Если на арабском — в 3 раза. И дело не в жадности провайдеров (хотя и в ней тоже), а в том, как устроена сама механика подсчёта — токенизация.
Что вообще такое токен и почему это не слово
Когда вы отправляете текст языковой модели, он не летит туда как есть. Сначала текст проходит через токенизатор — алгоритм, который разрезает ваше предложение на кусочки, понятные нейросети. Эти кусочки и есть токены. Но токен — это не слово. Это субсловная единица, продукт алгоритма BPE (Byte Pair Encoding).
BPE — штука, изначально придуманная для сжатия данных ещё в 1994 году. Суть простая: алгоритм смотрит на огромный корпус текстов и находит часто встречающиеся последовательности символов. Чем чаще комбинация встречается, тем вероятнее она станет одним токеном. Слово "the" в английском — один токен. А вот русское слово «привет» может разлететься на 2–4 токена в зависимости от того, какой провайдер его обрабатывает.
И вот тут начинается самое интересное. Каждый AI-провайдер обучает свой собственный токенизатор на своём собственном корпусе текстов со своим размером словаря. Результат: одно и то же слово нарезается по-разному в зависимости от того, кому вы платите.
Возьмём английское слово "unbelievable":
🔵 OpenAI (tiktoken): un | believ | able → 3 токена
🟢 Google (SentencePiece): un | believable → 2 токена
🟠 Anthropic: un | be | liev | able → 4 токена
Одно слово. Три разных счёта. И это ещё английское слово — для него токенизаторы оптимизированы лучше всего. С неанглийскими языками всё гораздо хуже.
Скрытая наценка: сколько на самом деле стоит ваш язык
Почему английский токенизируется эффективнее? Потому что тренировочные корпуса всех крупных моделей состоят преимущественно из английского текста. BPE-алгоритм учится на этих данных и создаёт оптимальный словарь прежде всего для английского. Остальные языки получают то, что осталось.
Вот как выглядит реальная наценка для разных языков относительно английского:
📈 Английский — базовая линия, ~1.3 токена на слово, стоимость 1×
📈 Испанский — ~2.1 токена на слово, наценка +62%, стоимость 1.6×
📈 Французский — ~2.0 токена на слово, наценка +54%, стоимость 1.5×
📈 Немецкий — ~2.1 токена на слово, наценка +62%, стоимость 1.6×
📈 Русский — ~3.3 токена на слово, наценка +154%, стоимость 2.5×
📈 Арабский — ~4.0 токена на слово, наценка +208%, стоимость 3.1×
📈 Хинди — ~6.4 токена на слово, наценка +392%, стоимость 4.9×
Если вы разработчик из России и строите продукт на основе AI API, ваши затраты на inference автоматически выше в 2.5 раза по сравнению с американским конкурентом — при той же самой бизнес-логике и объёме текста. Для индийского стартапа, работающего на хинди, это вообще пятикратная разница.
Почему русский и кириллица страдают особенно
Тут накладываются два фактора. Первый — уже упомянутый перекос тренировочного корпуса в сторону английского. Второй — техническая особенность кодирования. Кириллица и другие не-ASCII алфавиты занимают больше байт в UTF-8: если латинская буква — это один байт, то кириллическая — два. Арабская вязь или деванагари — ещё больше. А BPE на низком уровне работает именно с байтами. Больше байт — больше «сырого материала» для нарезки — больше токенов на выходе.
Показательный пример из исследования Леони Монигатти: фраза "Hello world" — 2 токена. Та же фраза на хинди, "हैलो वर्ल्ड", — 12 токенов. В шесть раз больше. Это не баг. Это прямое следствие того, как спроектирована система.
И размер словаря токенизатора тоже играет роль:
⚙️ Google — словарь ~256 тысяч токенов (лучшее покрытие языков)
⚙️ OpenAI — словарь ~100 тысяч токенов
⚙️ Meta LLaMA / Mistral — словарь ~32 тысячи токенов (самый компактный, максимальный «языковой налог»)
Чем больше словарь, тем больше шансов, что для вашего языка найдётся оптимальный токен, а не нарезка по отдельным байтам. Google с его 256k-словарём SentencePiece справляется лучше остальных, но идеала нет ни у кого.
Конкретные деньги: считаем на реальном примере
Давайте возьмём типичную задачу для AI-агента: пользовательское сообщение на 100 слов, системный промпт на 500 слов, ответ на 200 слов. Один и тот же запрос, только на английском и на русском.
🧮 Английский: ~130 + ~650 + ~260 = ~1 040 токенов
🧮 Русский: ~330 + ~1 650 + ~660 = ~2 640 токенов
Разница — примерно 2.5×. На одном запросе это копейки. Но если у вас SaaS-продукт с тысячами пользователей и миллионами вызовов API в месяц, эта «копеечная» разница превращается в серьёзную статью расходов, которую большинство команд обнаруживает слишком поздно — когда архитектура уже зафиксирована и провайдер выбран.
А теперь умножьте это на разброс цен между провайдерами. По данным на март 2026 года, разрыв между самым дешёвым и самым дорогим вариантом — 420 раз. Google Gemini Flash-Lite берёт $0.40 за миллион выходных токенов. Ожидаемая стоимость GPT-5.2 Pro — $168 за тот же миллион. Оба позиционируются как «AI-ассистенты».
Токены — это новые облачные кредиты
Кто помнит начало эры облачных вычислений, тот узнает паттерн. AWS считал в EC2 Hours, Azure — в Credits, Google — в Compute Units. Каждая единица определялась по-своему, сравнение требовало таблички в Excel, и эта непрозрачность всегда работала в пользу продавца. Потребовались годы и давление рынка, чтобы индустрия пришла к более-менее сопоставимым метрикам.
С токенами — та же история. Токен OpenAI — это не то же самое, что токен Anthropic, что не то же самое, что токен Google. Они называются одинаково, но обозначают разное. Нет ни ISO-стандарта, ни регулятора, ни даже общепринятой методики сравнения. Токенизатор Anthropic, к слову, вообще непубличный — ни спецификации, ни open-source версии, документация ограничивается парой абзацев в FAQ по ценам. Вам выставляет счёт чёрный ящик.
Что с этим делать: практические рекомендации
Если вы работаете с AI API и ваши пользователи говорят не на английском, вот что стоит учитывать:
🛠️ Считайте токены заранее — используйте tiktoken (OpenAI), SentencePiece или аналоги, чтобы до отправки запроса знать, сколько он реально будет стоить. Закладывайте коэффициент языка в финансовую модель
🛠️ Выбирайте провайдера осознанно — Google Gemini с его крупным словарём показывает лучшую эффективность для неанглийских языков. Для русскоязычного продукта разница может быть существенной
🛠️ Кэшируйте агрессивно — повторяющиеся промпты (особенно системные) не должны токенизироваться заново при каждом запросе. Prompt caching сейчас поддерживают и OpenAI, и Anthropic, и Google
🛠️ Оптимизируйте промпты — каждое лишнее слово в системном промпте умножается на коэффициент языка. Для русского это 2.5×, для арабского — 3×. Инвестиция времени в сокращение промптов окупается буквально
🛠️ Следите за рынком — ситуация меняется быстро. Новые модели приходят с обновлёнными токенизаторами, и разрыв между языками постепенно сокращается
Моё мнение
Называть это «языковой дискриминацией» — может, немного громко. Провайдеры не сидят в переговорке и не решают, как бы содрать побольше с русскоязычных пользователей. Проблема системная: английский доминирует в обучающих данных, BPE-алгоритм оптимизирует то, что видит чаще всего, а стандартизацией никто не занимается, потому что непрозрачность выгодна всем продавцам.
Но от того, что никто не виноват «специально», проблема не перестаёт существовать. Если AI-индустрия позиционирует себя как инструмент глобальной демократизации доступа к знаниям, то пятикратный разрыв в стоимости одного и того же запроса между английским и хинди — это, мягко говоря, лицемерие.
Я думаю, давление будет нарастать с двух сторон. Снизу — от разработчиков, которые строят международные продукты и видят реальные цифры в биллинге. Сверху — от регуляторов, особенно в ЕС, где к вопросам языкового равенства относятся серьёзно. Результатом, скорее всего, станет не стандартизация токенов (это технически сложно), а расширение словарей токенизаторов и увеличение доли неанглийских текстов в тренировочных корпусах. Google уже двигается в эту сторону с 256k-словарём — остальным придётся догонять.
А пока — считайте токены. И помните: когда на ценнике написано «$5 за миллион токенов», ваш миллион токенов может оказаться значительно меньше текста, чем вы думали.
Источники
📎 The Biggest Con of the 21st Century: Tokens — TokensTree Newsletter
📎 Подробный разбор на Telegraph
📎 Why OpenAI's API Is More Expensive for Non-English Languages — Leonie Monigatti
📎 Token Economics: Understanding AI API Costs — Field Guide to AI
📎 TokensTree — платформа оптимизации токенов