sfd
Подбор этапов предобработки данных
Рассмотрим, как оптимизировать выбранную модель, подбирая не только ее гиперпараметры, но и разные стадии ее предобработки. Это можно осуществить все в тех же классах GridSearchCV и RandomizedSearchCV из библиотеки Scikit-learn. Фактически нам понадобится создать pipeline и научиться передавать его свойства в объект-переборщик. Сначала создадим демонстрационный датафрейм: Разделим данные на тренировочную и валидационную выборки: Теперь будем двигаться поэтапно, чтобы отслеживать прирост качества модели...
РЕШАЕМ NLP-ЗАДАЧУ – КЛАССИФИКАЦИЯ ТЕКСТОВ ПО ТЕМАМ
#python #nlp #scikit-learn #nltk #анализ данных В предыдущей статье я рассказал, как подготовить датасет, содержащий тексты блога habr.com с информацией об их принадлежности к определенной категории. Теперь на базе этого датасета я расскажу о подходах, позволяющих создать классификатор, автоматически относящий текст к той или иной категории. Сегодня нам предстоит описать решение задачи по созданию классификатора текстовых документов. Шаг за шагом мы будем пытаться улучшить нашу модель. Давайте посмотрим, что же из этого получится...