Найти в Дзене

Normalization в Машинном обучении простыми словами

Оглавление
Фото: @bharathrajn89
Фото: @bharathrajn89

Нормализация (Max-Min Normalization, Min-Max Scaling) – техника преобразования значений признака (Feature), масштабирующая значения таким образом, что они располагаются в диапазоне от 0 до 1. Вычисляется каждый нормализованный элемент признака с помощью формулы:

-2

Цель такого преобразования – изменить значения числовых столбцов в наборе данных так, чтобы сохранить различия их диапазонов. В Машинном обучении (Machine Learning) Датасет (Dataset) требует нормализации, когда признаки имеют разные диапазоны и тем самым способствуют искажению восприятия взаимоотношений между Переменными-предикторами (Predictor Variable) и Целевой переменной (Target Variable).

Нормализация и SkLearn

Нормализовать можно с помощью функции SkLearn. Импортируем MinMaxScaler библиотеки Scikit-learn:

-3

Загрузим наш игрушечный датасет и дополним команду: разделителем является точка с запятой (sep = ';'):

-4

Мы будем нормализовать Числовые переменные (Numeric Variable) датасета о клиентах банка – потребителях кредитных продуктов:

-5

Определим, какие признаки являются числовыми, чтобы впоследствии их нормализовать:

-6
-7

Для простоты восприятия сузим датасет и создадим его копию, состоящую только из признаков, выраженных числами:

-8

Теперь приступим непосредственно к нормализации:

-9

Результирующий нормализованный датасет приобрел следующий вид и готов к дальнейшей обработке и загрузке в Модель (Model):

-10

Сравните, как повлияла нормализация на восприятие отношений между признаками "Возраст" и "Длительность [телефонного разговора с менеджером по продажам]". Это окажет существенное влияние на работу Метода k-ближайших соседей (kNN) и других его собратьев, учитывающих расстояние между точками. Мы отобразим на графике первые пять Наблюдений (Observation) датасета в исходном виде и преобразованном:

-11

Нормализация и стандартизация

Стандартизация (Standartization) является разновидностью нормализации с использованием Стандартизованной оценки (Z-Score) и как бы центрирует наблюдения относительно нуля. Расстояние от нуля, то есть Дисперсия случайной величины (Variance) не превышает единицы:

-12

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте наши курсы по Машинному обучению на Udemy.