Лексема – набор слов, их частей или символов как основной компонент Токенизации (Tokenization), то есть преобразования значимой части данных. Значимый набор слов, например, четверостишие, разбирается на слова и символы, не имеющие смысла в виде токена, но позволяющие ссылаться на этот текст для решения некоторых задач Машинного обучения (ML), например, Анализа эмоциональной окраски (Sentiment Analysis).
Пример. Ниже приведен фрагмент книги Чарльза Диккенса «Повесть о двух городах»:
It was the best of times,It was the worst of times,It was the age of wisdom,It was the age of foolishness,
В этом небольшом примере давайте рассматривать каждую строку как отдельный «документ», а все четверостишие – как Корпус (Corpus) документов.
Теперь мы можем составить токен, и состоит он из 11 слов:
- “it”
- “was”
- “the”
- “best”
- “of”
- “times”
- “worst”
- “age”
- “wisdom”
- “foolishness”
- ","