Найти тему

Kurtosis в Машинном обучении простыми словами

Оглавление
Фото: @einarr05
Фото: @einarr05

Эксцесс (κ – "каппа") – это параметр распределения вероятностей (Probability Distribution), характеризующий его остроконечность. Эксцесс характеризует островершинность кривой и форму ее "хвостов":

-2

Эксцесс рассчитывается с помощью формулы – частное 4-го Центрального момента и квадратичной дисперсии:

-3

Влияние на Машинное обучение

В зависимости от значения коэффициента эксцесс делят на три вида:

-4

Многие годы статисты спорили, что сильнее влияет на значение эксцесса – островершинность пика кривой или же "жирные" хвосты. Последние победили:

-5

Это значит также, что большое значение эксцесса приводит к массивным длинным хвостам длиной по 6-7 стандартных отклонений, а общепринятая норма здесь – 3-4. Это означает, помимо прочего, наличие выбросов, искажающих прогностическую силу Машинного обучения.

Эксцесс и SciPy

Коэффициент эксцесса можно вычислить с помощью метода kurtosis() SciPy.

Пример. Исследователи собрали данные о урожае крыжовника в небольшом садоводстве. По одному килограмму собрали два садовода, по два – три и так далее. 10 килограммов удалось собрать лишь одному:

-6

Импортируем все необходимые библиотеки:

-7

Используем тот же набор наблюдений из задачи про крыжовник и рассчитаем значение коэффициента эксцесса для всей Выборки (Sample):

-8

Эксцесс платикуртический, поскольку меньше 3:

-9

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал . И попробуйте наши курсы по Машинному обучению на Udemy .