2 года назад
Подбор этапов предобработки данных
Рассмотрим, как оптимизировать выбранную модель, подбирая не только ее гиперпараметры, но и разные стадии ее предобработки. Это можно осуществить все в тех же классах GridSearchCV и RandomizedSearchCV из библиотеки Scikit-learn. Фактически нам понадобится создать pipeline и научиться передавать его свойства в объект-переборщик. Сначала создадим демонстрационный датафрейм: Разделим данные на тренировочную и валидационную выборки: Теперь будем двигаться поэтапно, чтобы отслеживать прирост качества модели...
1693 читали · 4 года назад
Pipeline в Машинном обучении простыми словами
Пайплайн – 1. Последовательные стадии работы с данными, включающие как извлечение данных, скраббинг (очистку), Разведочный анализ данных (EDA), моделирование, интерпретацию и пересмотр. 2. Класс библиотеки Scikit-learn, последовательно применяющий к исходным данным настраиваемые преобразования. 3. Автоматизируемая последовательность обучения и оптимизации модели в PyTorch и других библиотеках. Пайплайн как последовательность: Извлечение Этот этап включает сбор данных из Интернета или баз данных и конвертация в определенные форматы...