В эпоху генеративного ИИ термин «токен» стал привычным для разработчиков, исследователей и даже обычных пользователей чат‑ботов. Однако за этим простым словом скрывается целый механизм, без которого современные большие языковые модели (LLM) не могут эффективно обрабатывать текст. В статье разберём, что такое токен, как формируется словарь модели и почему алгоритм Byte Pair Encoding (BPE) стал де‑факто стандартом токенизации. Токен — это минимальная единица ввода, воспринимаемая конкретной моделью. В отличие от традиционного представления текста как последовательности слов, LLM работают с числовыми идентификаторами, каждый из которых соответствует отдельному элементу словаря. Словарь фиксирован во время обучения и содержит от нескольких десятков тысяч до нескольких сотен тысяч токенов. При подаче строки модель разбивает её на токены согласно этому словарю, а затем заменяет их на целочисленные коды, которые попадают в нейронную сеть. Почему же токен не всегда совпадает со словом? Токен