Сеня рядом и Белла пришел. Былое
Pipeline в Машинном обучении простыми словами
Пайплайн – 1. Последовательные стадии работы с данными, включающие как извлечение данных, скраббинг (очистку), Разведочный анализ данных (EDA), моделирование, интерпретацию и пересмотр. 2. Класс библиотеки Scikit-learn, последовательно применяющий к исходным данным настраиваемые преобразования. 3. Автоматизируемая последовательность обучения и оптимизации модели в PyTorch и других библиотеках. Пайплайн как последовательность: Извлечение Этот этап включает сбор данных из Интернета или баз данных и конвертация в определенные форматы...
РЕШАЕМ NLP-ЗАДАЧУ – КЛАССИФИКАЦИЯ ТЕКСТОВ ПО ТЕМАМ
#python #nlp #scikit-learn #nltk #анализ данных В предыдущей статье я рассказал, как подготовить датасет, содержащий тексты блога habr.com с информацией об их принадлежности к определенной категории. Теперь на базе этого датасета я расскажу о подходах, позволяющих создать классификатор, автоматически относящий текст к той или иной категории. Сегодня нам предстоит описать решение задачи по созданию классификатора текстовых документов. Шаг за шагом мы будем пытаться улучшить нашу модель. Давайте посмотрим, что же из этого получится...