Эксцесс (κ – "каппа") – это параметр распределения вероятностей (Probability Distribution), характеризующий его остроконечность. Эксцесс характеризует островершинность кривой и форму ее "хвостов":
Эксцесс рассчитывается с помощью формулы – частное 4-го Центрального момента и квадратичной дисперсии:
Влияние на Машинное обучение
В зависимости от значения коэффициента эксцесс делят на три вида:
Многие годы статисты спорили, что сильнее влияет на значение эксцесса – островершинность пика кривой или же "жирные" хвосты. Последние победили:
Это значит также, что большое значение эксцесса приводит к массивным длинным хвостам длиной по 6-7 стандартных отклонений, а общепринятая норма здесь – 3-4. Это означает, помимо прочего, наличие выбросов, искажающих прогностическую силу Машинного обучения.
Эксцесс и SciPy
Коэффициент эксцесса можно вычислить с помощью метода kurtosis() SciPy.
Пример. Исследователи собрали данные о урожае крыжовника в небольшом садоводстве. По одному килограмму собрали два садовода, по два – три и так далее. 10 килограммов удалось собрать лишь одному:
Импортируем все необходимые библиотеки:
Используем тот же набор наблюдений из задачи про крыжовник и рассчитаем значение коэффициента эксцесса для всей Выборки (Sample):
Эксцесс платикуртический, поскольку меньше 3:
Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.
Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал . И попробуйте наши курсы по Машинному обучению на Udemy .