3 года назад
Классификация текстов отзывов о фильмах с помощью Scikit-learn
Источник: Nuances of Programming Сначала мы посмотрим, как подготовить текстовые данные для подачи их в модель машинного обучения. Затем покажем, как использовать Scikit-learn для реализации модели классификатора, а в конце поговорим об эффективности модели. Обзор данных Датасет, который мы будем использовать, можно найти по следующей ссылке. Это двоичный набор данных для классификации настроений, разделенный на две папки: положительные и отрицательные отзывы (по 1000 штук в каждой папке). Поскольку...
4 года назад
Обработка естественного языка для анализа отзывов онлайн-покупателей
Источник: Nuances of Programming Цель использования обработки естественного языка в описываемом проекте — анализ обзоров на товары, оставленных онлайн-покупателями.  Я начал работу над этим проектом для достижения трех бизнес-целей:  Используем набор данных из Kaggle, предоставленный Datafiniti. Более 70,000 отзывов на 1,000 товаров от 58,000 уникальных покупателей.  Сфокусируемся на 2 колонках этого набора данных:  Как распределяются рейтинги? Большинство покупателей остались довольны, 86% из них ставят оценки 4 и 5...