Найти в Дзене

Сделал простой, но свой токенизатор. Если у кого есть идеи, для интересных проектов, поделитесь в комментариях, буду благодарен :) 😐   import re


class Tokenizer:
  def __init__(self):
   self.pattern = re.compile(r"([^\w\s]|\w+|\d+|\s+)")

  def tokenize(self, text):
   tokens = self.pattern.findall(text)
   return [token.strip() for token in tokens if token.strip()]

if __name__ == "__main__":
  tokenizer = Tokenizer()
  text = "This is a sample sentence. It contains numbers like 123 and punctuation marks, such as !, ?. What about abbreviations like Mr. or Mrs.? And URLs like http://example.comexample.com?kenizer.tokenize(text)
  print(tokens)
Около минуты