15 подписчиков

Регулярные выражения

5 августа 20235 авг 2023

~1 мин

Для работы с текстами существуют различные способы обработки. Один из таких - исключение случайных символов, для чего в Python существует встроенный модуль re. С его помощью текст будет очищен от знаков и преобразован в список. Напишем функцию clear_text(text), которая оставит в тексте только кириллические символы и пробелы. import pandas as pd

from pymystem3 import Mystem

import re data = pd.read_csv('/datasets/tweets.csv')

corpus = list(data['text'])

def lemmatize(text):

m = Mystem()

lemm_list = m.lemmatize(text)

lemm_text = "".join(lemm_list)

return lemm_text def clear_text(text):

clear_text=re.sub(r'[^а-яА-ЯёЁ ]', ' ', text)

clear_text=clear_text.split()

clear_text=" ".join(clear_text)

return clear_text

print("Исходный текст:", corpus[0])

print("Очищенный и лемматизированный текст:", lemmatize(clear_text(corpus[0])))

from pymystem3 import Mystem

import re data = pd.read_csv('/datasets/tweets.csv')

corpus = list(data['text'])

def lemmatize(text):

m = Mystem()

lemm_list = m.lemmatize(text)

lemm_text = "".join(lemm_list)

return lemm_text def clear_text(text):

clear_text=re.sub(r'[^а-яА-ЯёЁ ]', ' ', text)

clear_text=clear_text.split()

clear_text=" ".join(clear_text)

return clear_text

print("Исходный текст:", corpus[0])

print("Очищенный и лемматизированный текст:", lemmatize(clear_text(corpus[0])))

Для работы с текстами существуют различные способы обработки. Один из таких - исключение случайных символов, для чего в Python существует встроенный модуль re. С его помощью текст будет очищен от знаков и преобразован в список.

Напишем функцию clear_text(text), которая оставит в тексте только кириллические символы и пробелы.

import pandas as pd
from pymystem3 import Mystem
import re

data = pd.read_csv('/datasets/tweets.csv')
corpus = list(data['text'])

def lemmatize(text):
m = Mystem()
lemm_list = m.lemmatize(text)
lemm_text = "".join(lemm_list)

return lemm_text

def clear_text(text):
clear_text=re.sub(r'[^а-яА-ЯёЁ ]', ' ', text)
clear_text=clear_text.split()
clear_text=" ".join(clear_text)
return clear_text
print("Исходный текст:", corpus[0])
print("Очищенный и лемматизированный текст:", lemmatize(clear_text(corpus[0])))

wallpapersgood.ru

Загрузить обои цифры, лупа, поиск, коды, figures, magnifier, search, codes