Добавить в корзинуПозвонить
Найти в Дзене
ЦифроПроф

Регулярные выражения

Для работы с текстами существуют различные способы обработки. Один из таких - исключение случайных символов, для чего в Python существует встроенный модуль re. С его помощью текст будет очищен от знаков и преобразован в список. Напишем функцию clear_text(text), которая оставит в тексте только кириллические символы и пробелы. import pandas as pd
from pymystem3 import Mystem
import re data = pd.read_csv('/datasets/tweets.csv')
corpus = list(data['text'])
def lemmatize(text):
m = Mystem()
lemm_list = m.lemmatize(text)
lemm_text = "".join(lemm_list)
return lemm_text def clear_text(text):
clear_text=re.sub(r'[^а-яА-ЯёЁ ]', ' ', text)
clear_text=clear_text.split()
clear_text=" ".join(clear_text)
return clear_text
print("Исходный текст:", corpus[0])
print("Очищенный и лемматизированный текст:", lemmatize(clear_text(corpus[0])))

Для работы с текстами существуют различные способы обработки. Один из таких - исключение случайных символов, для чего в Python существует встроенный модуль re. С его помощью текст будет очищен от знаков и преобразован в список.

Напишем функцию clear_text(text), которая оставит в тексте только кириллические символы и пробелы.

import pandas as pd
from pymystem3 import Mystem
import re

data = pd.read_csv('/datasets/tweets.csv')
corpus = list(data['text'])


def lemmatize(text):
m = Mystem()
lemm_list = m.lemmatize(text)
lemm_text = "".join(lemm_list)

return lemm_text

def clear_text(text):
clear_text=re.sub(r'[^а-яА-ЯёЁ ]', ' ', text)
clear_text=clear_text.split()
clear_text=" ".join(clear_text)
return clear_text
print("Исходный текст:", corpus[0])
print("Очищенный и лемматизированный текст:", lemmatize(clear_text(corpus[0])))

Загрузить обои цифры, лупа, поиск, коды, figures, magnifier, search, codes