Перерасход токенов
Перед обработкой текста модель разбивает его на токены - минимальные смысловые единицы, которыми могут быть целые слова, части слов или даже отдельные символы. Большинство современных LLM (GPT, Claude и другие) используют алгоритм токенизации Byte Pair Encoding (BPE), который строит свой словарь на основе частотности сочетаний символов в обучающих данных. Поскольку основная часть этих данных представлена на английском языке, токенизатор оптимизирован под латиницу и относительно простую английскую морфологию...