Найти в Дзене
Властелин машин

Корректное применение преобразований к выборкам

Рассмотрим, как правильно применять масштабирование и кодирование в условиях наличия нескольких выборок и разных типов колонок. Пусть мы работаем со следующим датафреймом: Разделим набор на выборки и выделим категориальные и числовые колонки: Обратите внимание, что для использованного способа деления необходимо не забыть перемешать данные, если только они не должны иметь определенный порядок. Ниже показано, как обучить OneHotEncoder и трансформировать колонки в выборках: В общем случае кодирование и масштабирование правильно настраивать (обучать) на тренировочной выборке (о других предполагаем, что модель ничего не знает). А вот преобразование применяется ко всем выборкам с использованием метода transform. Шкалирование численной колонки для всех выборок приведено ниже: Теперь все колонки итоговых выборок преобразованы и готовы к дальнейшему использованию. Отмечу, что во избежание трудностей с использованием преобразований лучше их применять в пайплайнах.

Рассмотрим, как правильно применять масштабирование и кодирование в условиях наличия нескольких выборок и разных типов колонок. Пусть мы работаем со следующим датафреймом:

Разделим набор на выборки и выделим категориальные и числовые колонки:

-2

Обратите внимание, что для использованного способа деления необходимо не забыть перемешать данные, если только они не должны иметь определенный порядок.

Ниже показано, как обучить OneHotEncoder и трансформировать колонки в выборках:

-3
-4

В общем случае кодирование и масштабирование правильно настраивать (обучать) на тренировочной выборке (о других предполагаем, что модель ничего не знает). А вот преобразование применяется ко всем выборкам с использованием метода transform.

Шкалирование численной колонки для всех выборок приведено ниже:

-5

Теперь все колонки итоговых выборок преобразованы и готовы к дальнейшему использованию. Отмечу, что во избежание трудностей с использованием преобразований лучше их применять в пайплайнах.

-6