Найти в Дзене
Властелин машин

Создание пайплайнов предобработки данных

Рассмотрим легкий и эффективный способ объединения преобразований в цепочки. Загрузим тренировочный датасет:

Разобьем данные на тренировочный и тестовый наборы:

-2

Теперь предскажем значения target с использованием линейной регрессии (Ridge) и посчитаем ошибки (абсолютную и процентную):

-3

Так как для модели линейной регрессии желательно нормализовать признаки, применим StandardScaler, но включим его в качестве промежуточного шага в экземпляр класса Pipeline:

-4

В Pipeline задается цепочка трансформаторов, после которых идет оценщик (фактически наша модель). Метод fit приводит к последовательному вызову fit, transform каждого трансформатора и только fit для оценщика. А predict - вызывает последовательность вызовов transform трансформаторов и predict оценщика.

Можно в качестве первого шага также задать композитную трансформацию колонок, например, категориальный столбец 'sex' не требует нормализации, зато его следует закодировать:

-5

Теперь перепишем последнюю ячейку вручную, чтобы лучше понимать, что происходит внутри:

предобработка:

-6

и предсказание:

-7

Полезные ссылки:

Композитная трансформация колонок

-8

Наука
7 млн интересуются