Нормализация данных — это важный шаг в подготовке данных для обучения предсказательных моделей. Но не всегда и не для всех типов данных нормализация обязательна. Разберёмся, когда стоит делать нормализацию, а когда можно обойтись без неё. Если используем алгоритмы, которые зависят от расстояний между объектами датасета (это отличие значений в ячейках таблицы, выраженное в числовом эквиваленте, например вектор), например, K-ближайшие соседи (from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor) или метод опорных векторов (from sklearn.svm import SVC), то нормализация поможет им работать лучше. Алгоритмы и масштаб данных в датасете Масштаб признаков – это диапазон значений в столбцах с числовыми значениями. Если у тебя есть признаки с разными единицами измерения (например, возраст и доход), нормализация поможет сбалансировать их влияние на модель. Модели вроде деревьев решений, случайного леса (Random Forest) и градиентного бустинга (Gradient Boosting) не требуют норм
Нормализация исходных данных для машинного обучения
16 октября 202416 окт 2024
33
3 мин