213 подписчиков

Языковой налог ИИ: почему русский текст стоит в 2.5 раза дороже английского — и кто в этом виноват

1 апреля1 апр

7 мин

Вы общаетесь с ChatGPT, Claude или Gemini на русском языке. На ценнике провайдера — одна ставка за миллион токенов, одинаковая для всех. Кажется, что всё честно. Но ваш запрос на русском языке стоит в 2.5 раза дороже точно такого же запроса на английском. Если вы пишете на хинди — в 5 раз дороже. Если на арабском — в 3 раза. И дело не в жадности провайдеров (хотя и в ней тоже), а в том, как устроена сама механика подсчёта — токенизация. Когда вы отправляете текст языковой модели, он не летит туда как есть. Сначала текст проходит через токенизатор — алгоритм, который разрезает ваше предложение на кусочки, понятные нейросети. Эти кусочки и есть токены. Но токен — это не слово. Это субсловная единица, продукт алгоритма BPE (Byte Pair Encoding). BPE — штука, изначально придуманная для сжатия данных ещё в 1994 году. Суть простая: алгоритм смотрит на огромный корпус текстов и находит часто встречающиеся последовательности символов. Чем чаще комбинация встречается, тем вероятнее она станет од

Оглавление

Что вообще такое токен и почему это не слово
Скрытая наценка: сколько на самом деле стоит ваш язык
Почему русский и кириллица страдают особенно

Что вообще такое токен и почему это не слово

Когда вы отправляете текст языковой модели, он не летит туда как есть. Сначала текст проходит через токенизатор — алгоритм, который разрезает ваше предложение на кусочки, понятные нейросети. Эти кусочки и есть токены. Но токен — это не слово. Это субсловная единица, продукт алгоритма BPE (Byte Pair Encoding).

BPE — штука, изначально придуманная для сжатия данных ещё в 1994 году. Суть простая: алгоритм смотрит на огромный корпус текстов и находит часто встречающиеся последовательности символов. Чем чаще комбинация встречается, тем вероятнее она станет одним токеном. Слово "the" в английском — один токен. А вот русское слово «привет» может разлететься на 2–4 токена в зависимости от того, какой провайдер его обрабатывает.

И вот тут начинается самое интересное. Каждый AI-провайдер обучает свой собственный токенизатор на своём собственном корпусе текстов со своим размером словаря. Результат: одно и то же слово нарезается по-разному в зависимости от того, кому вы платите.

Возьмём английское слово "unbelievable":

🔵 OpenAI (tiktoken): un | believ | able → 3 токена

🟢 Google (SentencePiece): un | believable → 2 токена

🟠 Anthropic: un | be | liev | able → 4 токена

Одно слово. Три разных счёта. И это ещё английское слово — для него токенизаторы оптимизированы лучше всего. С неанглийскими языками всё гораздо хуже.

Скрытая наценка: сколько на самом деле стоит ваш язык

Почему английский токенизируется эффективнее? Потому что тренировочные корпуса всех крупных моделей состоят преимущественно из английского текста. BPE-алгоритм учится на этих данных и создаёт оптимальный словарь прежде всего для английского. Остальные языки получают то, что осталось.

Вот как выглядит реальная наценка для разных языков относительно английского:

📈 Английский — базовая линия, ~1.3 токена на слово, стоимость 1×

📈 Испанский — ~2.1 токена на слово, наценка +62%, стоимость 1.6×

📈 Французский — ~2.0 токена на слово, наценка +54%, стоимость 1.5×

📈 Немецкий — ~2.1 токена на слово, наценка +62%, стоимость 1.6×

📈 Русский — ~3.3 токена на слово, наценка +154%, стоимость 2.5×

📈 Арабский — ~4.0 токена на слово, наценка +208%, стоимость 3.1×

📈 Хинди — ~6.4 токена на слово, наценка +392%, стоимость 4.9×

Если вы разработчик из России и строите продукт на основе AI API, ваши затраты на inference автоматически выше в 2.5 раза по сравнению с американским конкурентом — при той же самой бизнес-логике и объёме текста. Для индийского стартапа, работающего на хинди, это вообще пятикратная разница.

Почему русский и кириллица страдают особенно

Тут накладываются два фактора. Первый — уже упомянутый перекос тренировочного корпуса в сторону английского. Второй — техническая особенность кодирования. Кириллица и другие не-ASCII алфавиты занимают больше байт в UTF-8: если латинская буква — это один байт, то кириллическая — два. Арабская вязь или деванагари — ещё больше. А BPE на низком уровне работает именно с байтами. Больше байт — больше «сырого материала» для нарезки — больше токенов на выходе.

Показательный пример из исследования Леони Монигатти: фраза "Hello world" — 2 токена. Та же фраза на хинди, "हैलो वर्ल्ड", — 12 токенов. В шесть раз больше. Это не баг. Это прямое следствие того, как спроектирована система.

И размер словаря токенизатора тоже играет роль:

⚙️ Google — словарь ~256 тысяч токенов (лучшее покрытие языков)

⚙️ OpenAI — словарь ~100 тысяч токенов

⚙️ Meta LLaMA / Mistral — словарь ~32 тысячи токенов (самый компактный, максимальный «языковой налог»)

Чем больше словарь, тем больше шансов, что для вашего языка найдётся оптимальный токен, а не нарезка по отдельным байтам. Google с его 256k-словарём SentencePiece справляется лучше остальных, но идеала нет ни у кого.

Конкретные деньги: считаем на реальном примере

Давайте возьмём типичную задачу для AI-агента: пользовательское сообщение на 100 слов, системный промпт на 500 слов, ответ на 200 слов. Один и тот же запрос, только на английском и на русском.

🧮 Английский: ~130 + ~650 + ~260 = ~1 040 токенов

🧮 Русский: ~330 + ~1 650 + ~660 = ~2 640 токенов

Разница — примерно 2.5×. На одном запросе это копейки. Но если у вас SaaS-продукт с тысячами пользователей и миллионами вызовов API в месяц, эта «копеечная» разница превращается в серьёзную статью расходов, которую большинство команд обнаруживает слишком поздно — когда архитектура уже зафиксирована и провайдер выбран.

А теперь умножьте это на разброс цен между провайдерами. По данным на март 2026 года, разрыв между самым дешёвым и самым дорогим вариантом — 420 раз. Google Gemini Flash-Lite берёт $0.40 за миллион выходных токенов. Ожидаемая стоимость GPT-5.2 Pro — $168 за тот же миллион. Оба позиционируются как «AI-ассистенты».

Токены — это новые облачные кредиты

Кто помнит начало эры облачных вычислений, тот узнает паттерн. AWS считал в EC2 Hours, Azure — в Credits, Google — в Compute Units. Каждая единица определялась по-своему, сравнение требовало таблички в Excel, и эта непрозрачность всегда работала в пользу продавца. Потребовались годы и давление рынка, чтобы индустрия пришла к более-менее сопоставимым метрикам.

С токенами — та же история. Токен OpenAI — это не то же самое, что токен Anthropic, что не то же самое, что токен Google. Они называются одинаково, но обозначают разное. Нет ни ISO-стандарта, ни регулятора, ни даже общепринятой методики сравнения. Токенизатор Anthropic, к слову, вообще непубличный — ни спецификации, ни open-source версии, документация ограничивается парой абзацев в FAQ по ценам. Вам выставляет счёт чёрный ящик.

Что с этим делать: практические рекомендации

Если вы работаете с AI API и ваши пользователи говорят не на английском, вот что стоит учитывать:

🛠️ Считайте токены заранее — используйте tiktoken (OpenAI), SentencePiece или аналоги, чтобы до отправки запроса знать, сколько он реально будет стоить. Закладывайте коэффициент языка в финансовую модель

🛠️ Выбирайте провайдера осознанно — Google Gemini с его крупным словарём показывает лучшую эффективность для неанглийских языков. Для русскоязычного продукта разница может быть существенной

🛠️ Кэшируйте агрессивно — повторяющиеся промпты (особенно системные) не должны токенизироваться заново при каждом запросе. Prompt caching сейчас поддерживают и OpenAI, и Anthropic, и Google

🛠️ Оптимизируйте промпты — каждое лишнее слово в системном промпте умножается на коэффициент языка. Для русского это 2.5×, для арабского — 3×. Инвестиция времени в сокращение промптов окупается буквально

🛠️ Следите за рынком — ситуация меняется быстро. Новые модели приходят с обновлёнными токенизаторами, и разрыв между языками постепенно сокращается

Моё мнение

Называть это «языковой дискриминацией» — может, немного громко. Провайдеры не сидят в переговорке и не решают, как бы содрать побольше с русскоязычных пользователей. Проблема системная: английский доминирует в обучающих данных, BPE-алгоритм оптимизирует то, что видит чаще всего, а стандартизацией никто не занимается, потому что непрозрачность выгодна всем продавцам.

Но от того, что никто не виноват «специально», проблема не перестаёт существовать. Если AI-индустрия позиционирует себя как инструмент глобальной демократизации доступа к знаниям, то пятикратный разрыв в стоимости одного и того же запроса между английским и хинди — это, мягко говоря, лицемерие.

Я думаю, давление будет нарастать с двух сторон. Снизу — от разработчиков, которые строят международные продукты и видят реальные цифры в биллинге. Сверху — от регуляторов, особенно в ЕС, где к вопросам языкового равенства относятся серьёзно. Результатом, скорее всего, станет не стандартизация токенов (это технически сложно), а расширение словарей токенизаторов и увеличение доли неанглийских текстов в тренировочных корпусах. Google уже двигается в эту сторону с 256k-словарём — остальным придётся догонять.

А пока — считайте токены. И помните: когда на ценнике написано «$5 за миллион токенов», ваш миллион токенов может оказаться значительно меньше текста, чем вы думали.

Источники

📎 The Biggest Con of the 21st Century: Tokens — TokensTree Newsletter

📎 Подробный разбор на Telegraph

📎 Why OpenAI's API Is More Expensive for Non-English Languages — Leonie Monigatti

📎 Token Economics: Understanding AI API Costs — Field Guide to AI

📎 TokensTree — платформа оптимизации токенов