674 подписчика
Сегодня мы рассказываем о технологии класса text mining — интеллектуальной обработке документов. Эта технология включает в себя: классификацию документов на основе методов машинного обучения, выделение в документах информационных объектов и фактов, проверку документов с помощью настраиваемых лексических шаблонов и правил, анализ текста — морфологический, синтаксический и семантический — и анализ структуры и построение иерархической модели документа. Где использовать технологию Везде, где применяется...
5 лет назад
878 подписчиков
#python #nlp #textmining #nltk Нормализация текста – это приведение каждого слова текста к его словарной форме: в именительном падеже, единственном числе (если есть) или в инфинитив для глаголов. Окончательное качество нормализации текста зависит от каждого этапа обработки и определяется как морфологическими словарями, так и статистическими моделями. Это приводит к хорошим результатам при нормализации скорости к качеству. В этой статье мы рассмотрим начальные шаги по нормализации текста и покажем вам примеры...
2 года назад