610 подписчиков

Корректное применение преобразований к выборкам

23 июля 202223 июл 2022

~1 мин

Рассмотрим, как правильно применять масштабирование и кодирование в условиях наличия нескольких выборок и разных типов колонок. Пусть мы работаем со следующим датафреймом: Разделим набор на выборки и выделим категориальные и числовые колонки: Обратите внимание, что для использованного способа деления необходимо не забыть перемешать данные, если только они не должны иметь определенный порядок. Ниже показано, как обучить OneHotEncoder и трансформировать колонки в выборках: В общем случае кодирование и масштабирование правильно настраивать (обучать) на тренировочной выборке (о других предполагаем, что модель ничего не знает). А вот преобразование применяется ко всем выборкам с использованием метода transform. Шкалирование численной колонки для всех выборок приведено ниже: Теперь все колонки итоговых выборок преобразованы и готовы к дальнейшему использованию. Отмечу, что во избежание трудностей с использованием преобразований лучше их применять в пайплайнах.

Разделим набор на выборки и выделим категориальные и числовые колонки:

Обратите внимание, что для использованного способа деления необходимо не забыть перемешать данные, если только они не должны иметь определенный порядок.

Ниже показано, как обучить OneHotEncoder и трансформировать колонки в выборках:

В общем случае кодирование и масштабирование правильно настраивать (обучать) на тренировочной выборке (о других предполагаем, что модель ничего не знает). А вот преобразование применяется ко всем выборкам с использованием метода transform.

Шкалирование численной колонки для всех выборок приведено ниже:

Теперь все колонки итоговых выборок преобразованы и готовы к дальнейшему использованию. Отмечу, что во избежание трудностей с использованием преобразований лучше их применять в пайплайнах.