#python #nlp #textmining #nltk Нормализация текста – это приведение каждого слова текста к его словарной форме: в именительном падеже, единственном числе (если есть) или в инфинитив для глаголов. Окончательное качество нормализации текста зависит от каждого этапа обработки и определяется как морфологическими словарями, так и статистическими моделями. Это приводит к хорошим результатам при нормализации скорости к качеству. В этой статье мы рассмотрим начальные шаги по нормализации текста и покажем вам примеры. Для начала нам нужно добавить несколько библиотек для работы: import pandas as pd
from string import punctuation # сборник символов пунктуации
from nltk.tokenize import word_tokenize # для токенизации по словам
from nltk.corpus import stopwords # сборник стоп-слов
import pymorphy2 # для морфологическтого анализа текста
from nltk.probability import FreqDist # используется для кодирования «частотных распределений» Создадим два массива для наглядности, в одном мы будет хранить началь