Рассмотрим, как правильно применять масштабирование и кодирование в условиях наличия нескольких выборок и разных типов колонок. Пусть мы работаем со следующим датафреймом: Разделим набор на выборки и выделим категориальные и числовые колонки: Обратите внимание, что для использованного способа деления необходимо не забыть перемешать данные, если только они не должны иметь определенный порядок. Ниже показано, как обучить OneHotEncoder и трансформировать колонки в выборках: В общем случае кодирование и масштабирование правильно настраивать (обучать) на тренировочной выборке (о других предполагаем, что модель ничего не знает). А вот преобразование применяется ко всем выборкам с использованием метода transform. Шкалирование численной колонки для всех выборок приведено ниже: Теперь все колонки итоговых выборок преобразованы и готовы к дальнейшему использованию. Отмечу, что во избежание трудностей с использованием преобразований лучше их применять в пайплайнах.