Перед обработкой текста модель разбивает его на токены - минимальные смысловые единицы, которыми могут быть целые слова, части слов или даже отдельные символы. Большинство современных LLM (GPT, Claude и другие) используют алгоритм токенизации Byte Pair Encoding (BPE), который строит свой словарь на основе частотности сочетаний символов в обучающих данных. Поскольку основная часть этих данных представлена на английском языке, токенизатор оптимизирован под латиницу и относительно простую английскую морфологию. В результате распространённые английские слова и их части часто кодируются одним токеном. Для языков с более сложной морфологией, например русского, и другой системой письменности токенизатор вынужден дробить текст на более мелкие и частые фрагменты, что увеличивает общее число токенов при передаче того же смысла. Коэффициент перерасхода показывает, во сколько раз больше токенов требуется по сравнению с английским языком, коэффициент которого принят за 1.0. Значение зависит