текст → числа → LLM → числа → текст Модель(LLM) принимает как вход числа - ID токенов и предсказывает распределение для следующего ID, после чего мы декодируем его обратно в текст. Наглядно это можно пощупать в The Tokenizer Playground. С-на процесс называется токенизацией. Если хотите в этом конкретно разобраться, советуют смотреть это видео LLM 1/2 @kod1nd