Нормализация (Max-Min Normalization, Min-Max Scaling) – техника преобразования значений признака (Feature), масштабирующая значения таким образом, что они располагаются в диапазоне от 0 до 1. Вычисляется каждый нормализованный элемент признака с помощью формулы:
Цель такого преобразования – изменить значения числовых столбцов в наборе данных так, чтобы сохранить различия их диапазонов. В Машинном обучении (Machine Learning) Датасет (Dataset) требует нормализации, когда признаки имеют разные диапазоны и тем самым способствуют искажению восприятия взаимоотношений между Переменными-предикторами (Predictor Variable) и Целевой переменной (Target Variable).
Нормализация и SkLearn
Нормализовать можно с помощью функции SkLearn. Импортируем MinMaxScaler библиотеки Scikit-learn:
Загрузим наш игрушечный датасет и дополним команду: разделителем является точка с запятой (sep = ';'):
Мы будем нормализовать Числовые переменные (Numeric Variable) датасета о клиентах банка – потребителях кредитных продуктов:
Определим, какие признаки являются числовыми, чтобы впоследствии их нормализовать:
Для простоты восприятия сузим датасет и создадим его копию, состоящую только из признаков, выраженных числами:
Теперь приступим непосредственно к нормализации:
Результирующий нормализованный датасет приобрел следующий вид и готов к дальнейшей обработке и загрузке в Модель (Model):
Сравните, как повлияла нормализация на восприятие отношений между признаками "Возраст" и "Длительность [телефонного разговора с менеджером по продажам]". Это окажет существенное влияние на работу Метода k-ближайших соседей (kNN) и других его собратьев, учитывающих расстояние между точками. Мы отобразим на графике первые пять Наблюдений (Observation) датасета в исходном виде и преобразованном:
Нормализация и стандартизация
Стандартизация (Standartization) является разновидностью нормализации с использованием Стандартизованной оценки (Z-Score) и как бы центрирует наблюдения относительно нуля. Расстояние от нуля, то есть Дисперсия случайной величины (Variance) не превышает единицы:
Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.
Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте наши курсы по Машинному обучению на Udemy.