2 подписчика
Сделал простой, но свой токенизатор. Если у кого есть идеи, для интересных проектов, поделитесь в комментариях, буду благодарен :) 😐 import re
class Tokenizer:
def __init__(self):
self.pattern = re.compile(r"([^\w\s]|\w+|\d+|\s+)")
def tokenize(self, text):
tokens = self.pattern.findall(text)
return [token.strip() for token in tokens if token.strip()]
if __name__ == "__main__":
tokenizer = Tokenizer()
text = "This is a sample sentence. It contains numbers like 123 and punctuation marks, such as !, ?. What about abbreviations like Mr. or Mrs.? And URLs like http://example.comexample.com?kenizer.tokenize(text)
print(tokens)
Около минуты
18 марта 2024