723 подписчика

Normalization в Машинном обучении простыми словами

21 января 202121 янв 2021

580

1 мин

Нормализация (Max-Min Normalization, Min-Max Scaling) – техника преобразования значений признака (Feature), масштабирующая значения таким образом, что они располагаются в диапазоне от 0 до 1. Вычисляется каждый нормализованный элемент признака с помощью формулы:

Цель такого преобразования – изменить значения числовых столбцов в наборе данных так, чтобы сохранить различия их

Оглавление

Нормализация и SkLearn
Нормализация и стандартизация

Цель такого преобразования – изменить значения числовых столбцов в наборе данных так, чтобы сохранить различия их диапазонов. В Машинном обучении (Machine Learning) Датасет (Dataset) требует нормализации, когда признаки имеют разные диапазоны и тем самым способствуют искажению восприятия взаимоотношений между Переменными-предикторами (Predictor Variable) и Целевой переменной (Target Variable).

Нормализация и SkLearn

Нормализовать можно с помощью функции SkLearn. Импортируем MinMaxScaler библиотеки Scikit-learn:

Загрузим наш игрушечный датасет и дополним команду: разделителем является точка с запятой (sep = ';'):

Мы будем нормализовать Числовые переменные (Numeric Variable) датасета о клиентах банка – потребителях кредитных продуктов:

Определим, какие признаки являются числовыми, чтобы впоследствии их нормализовать:

Для простоты восприятия сузим датасет и создадим его копию, состоящую только из признаков, выраженных числами:

Теперь приступим непосредственно к нормализации:

Результирующий нормализованный датасет приобрел следующий вид и готов к дальнейшей обработке и загрузке в Модель (Model):

Сравните, как повлияла нормализация на восприятие отношений между признаками "Возраст" и "Длительность [телефонного разговора с менеджером по продажам]". Это окажет существенное влияние на работу Метода k-ближайших соседей (kNN) и других его собратьев, учитывающих расстояние между точками. Мы отобразим на графике первые пять Наблюдений (Observation) датасета в исходном виде и преобразованном:

Нормализация и стандартизация

Стандартизация (Standartization) является разновидностью нормализации с использованием Стандартизованной оценки (Z-Score) и как бы центрирует наблюдения относительно нуля. Расстояние от нуля, то есть Дисперсия случайной величины (Variance) не превышает единицы:

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте наши курсы по Машинному обучению на Udemy.