Источник: Nuances of Programming Цель использования обработки естественного языка в описываемом проекте — анализ обзоров на товары, оставленных онлайн-покупателями. Я начал работу над этим проектом для достижения трех бизнес-целей: Используем набор данных из Kaggle, предоставленный Datafiniti. Более 70,000 отзывов на 1,000 товаров от 58,000 уникальных покупателей. Сфокусируемся на 2 колонках этого набора данных: Как распределяются рейтинги?
Большинство покупателей остались довольны, 86% из них ставят оценки 4 и 5. Какие слова люди используют в своих отзывах?
В заголовках слова ‘великолепно’ и ‘здорово’ появляются довольно часто. Покупатели также много описывают ‘фильмы’ и ‘товар’, которые они купили. Довольно трудно классифицировать эти отзывы по осмысленным группам, используя неконтролируемое обучение. Далее я сосредоточился на 5% всех отзывов от пользователей, которые действительно купили товар — я оцениваю эти отзывы как более подлинные и весомые. В этом наборе данных более 3