Найти в Дзене

Residual в Машинном обучении простыми словами

Фото: Ricardo Gomez Angel / Unsplash
Фото: Ricardo Gomez Angel / Unsplash

Остатки – это разница между фактическим целевым и спрогнозированным значением, ключевое понятие в задачах Регрессии (Regression). Это элемент формул ее метрик: Cреднеквадратической ошибки (MSE), Cредней абсолютной ошибки (MAE), средней абсолютной процентная ошибка (MAPE).

-2

График остатков, соответственно, – это тип графика, который отображает сопоставленные значения с остаточными в регрессионной Модели (Model). Такой способ визуалиации часто используется для оценки способности модели линейной регрессии описать зависимости в Датасете (Dataset) и для проверки Гетероскедастичности (Heteroscedasticity) – изменчивости распределения точек данных относительно прямо.

Остаток: statsmodels

Посмотрим, какими бывают графики остатков. Для этого импортируем необходимые библиотеки:

-3

Создадим небольшой Датафрейм (DataFrame), содержащий данные о результативности баскетболистов и протянем модель линейной регрессии, чтобы подтвердить или опровергнуть линейную зависимость между рейтингом игрока и количеством принесенных очков:

-4

Теперь настало время визуализировать отношения между этими метриками. Функция sm.graphics.plot_regress_exog() предлагает четыре вида остаточных графиков, и в некоторые из них стоит вглядеться, прежде чем наступит понимание:

-5

На субграфике слева сверху мы видим восемь "поплавков", причем красным обозначается фактический рейтинг игрока, а синим – предполагаемый моделью. Таких поплавков на два меньше общего числа записей, поскольку число очков двух пар игроков совпадают:

-6

График частичной регрессии (Partial Regression Plot) снизу слева пытается показать эффект добавления другой переменной в модель, которая уже имеет одну или несколько независимых переменных.

Его сосед справа сверху дает возможность акцентировать внимание на Дисперсии (Variance) – отклонения точек относительно прямой.

Последний субграфик "компоненты и компоненты плюс остатки" (Component and Component-Plus-Residual – CCPR) справа снизу позволяет судить о влиянии одного предиктора на целевую переменную, принимая во внимание влияние других независимых переменных. Два оставшихся Признака (Feature) также в немалой степени влияют на рейтинг:

  • Ассисты (assists) – передачи, после которых мяч удачно заброшен в корзину
  • Подборы (rebounds) – спортивная «кража» мяча&

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Автор оригинальной статьи: Pararawendy Indarjo, Zach

Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте курсы на Udemy.