Найти в Дзене
Макс Галсон

Русский vs Английский — кто жрёт больше токенов

? Общаюсь с Claude на русском. Всегда думал — какая разница? Модель же понимает оба языка. Разница есть. И она в 2-3 раза. Токенизаторы (GPT, Claude) заточены под английский. Одно английское слово разбивается на 1-2 кусочка (токена). Русское — на 4-6. Причина: кириллица занимает больше байт, а модели учились в основном на английских текстах. Пример: — "Hello, how are you?" — 4 токена — "Привет, как дела?" — 10 токенов Что это значит на практике: — Платишь за API в 2-3 раза больше — В контекстное окно влезает меньше текста — Генерация чуть медленнее Claude Pro и MAX тоже имеют лимиты. Я плачу $100-200 за x5-x20 лимиты, потому что мне проще доплатить, чем переключаться на английский. Кстати, для тех кто смотрел про печать голосом — в таких приложениях есть автоматический перевод. Говоришь по-русски, получаешь текст на английском. Где я использую английский: — Системные промпты — Большие инструкции для агентов Где остаюсь на русском: — Работа с контентом — на выходе текст чело

Русский vs Английский — кто жрёт больше токенов?

Общаюсь с Claude на русском. Всегда думал — какая разница? Модель же понимает оба языка.

Разница есть. И она в 2-3 раза.

Токенизаторы (GPT, Claude) заточены под английский.

Одно английское слово разбивается на 1-2 кусочка (токена).

Русское — на 4-6.

Причина: кириллица занимает больше байт, а модели учились в основном на английских текстах.

Пример:

— "Hello, how are you?" — 4 токена

— "Привет, как дела?" — 10 токенов

Что это значит на практике:

— Платишь за API в 2-3 раза больше

— В контекстное окно влезает меньше текста

— Генерация чуть медленнее

Claude Pro и MAX тоже имеют лимиты. Я плачу $100-200 за x5-x20 лимиты, потому что мне проще доплатить, чем переключаться на английский.

Кстати, для тех кто смотрел про печать голосом — в таких приложениях есть автоматический перевод. Говоришь по-русски, получаешь текст на английском.

Где я использую английский:

— Системные промпты

— Большие инструкции для агентов

Где остаюсь на русском:

— Работа с контентом — на выходе текст человечнее (русский язык богаче)

Что выбираете — больше платить или испытывать лёгкий дискомфорт?

P.S. IQ у ИИ при общении на английском слегка выше — это их родной язык, на котором они обучались.