Найти тему

Token в Машинном обучении простыми словами

Фото: Adrian / Unsplash
Фото: Adrian / Unsplash

Лексема – набор слов, их частей или символов как основной компонент Токенизации (Tokenization), то есть преобразования значимой части данных. Значимый набор слов, например, четверостишие, разбирается на слова и символы, не имеющие смысла в виде токена, но позволяющие ссылаться на этот текст для решения некоторых задач Машинного обучения (ML), например, Анализа эмоциональной окраски (Sentiment Analysis).

Пример. Ниже приведен фрагмент книги Чарльза Диккенса «Повесть о двух городах»:

It was the best of times,It was the worst of times,It was the age of wisdom,It was the age of foolishness,

В этом небольшом примере давайте рассматривать каждую строку как отдельный «документ», а все четверостишие – как Корпус (Corpus) документов.

Теперь мы можем составить токен, и состоит он из 11 слов:

  • “it”
  • “was”
  • “the”
  • “best”
  • “of”
  • “times”
  • “worst”
  • “age”
  • “wisdom”
  • “foolishness”
  • ","