2 подписчика

Сделал простой, но свой токенизатор. Если у кого есть идеи, для интересных проектов, поделитесь в комментариях, буду благодарен :) 😐 import re

class Tokenizer:

def __init__(self):

self.pattern = re.compile(r"([^\w\s]|\w+|\d+|\s+)")

def tokenize(self, text):

tokens = self.pattern.findall(text)

return [token.strip() for token in tokens if token.strip()]

if __name__ == "__main__":

tokenizer = Tokenizer()

text = "This is a sample sentence. It contains numbers like 123 and punctuation marks, such as !, ?. What about abbreviations like Mr. or Mrs.? And URLs like http://example.comexample.com?kenizer.tokenize(text)

print(tokens)

Example Domain

example.com

Около минуты

18 марта 2024