Найти тему

Average в Машинном обучении простыми словами

Оглавление
Фото: @peterluo0113
Фото: @peterluo0113

Среднее значение – мера центральной тенденции, служащая для описания множества значений одним-единственным числом. Меру можно охарактеризовать несколькими метриками: среднее значение (Mean), Медиана (Median), мода (Mode). В Науке о данных (Data Science) широкое применение получили следующие его разновидности: арифметическое, геометрическое и гармоническое средние значения.

Среднее арифметическое

Среднее арифметическое (μ для совокупности, x̄ для выборки; англ. Arithmetic Mean) – показатель описательной статистики, сумма элементов Датасета (Dataset), разделенная на их количество. Рассчитывается с помощью формулы:

-2

По умолчанию рассматривают именно с среднее арифметическое, остальные разновидности среднего рассматривают реже:

-3

В данной статье рассматриваются простые средние значения без Весовой функции (Weight Function).

Пример. Для небольшого списка [1, 6, 3, 2] средним арифметическим будет:

-4

Понятие используется в Науке о данных множеством способов:

  • В сочетании с другими показателями описательной статистики для первичного представления о признаке (Feature)
  • Для визуальной оценки скошенности признака:
  • Для индикации Выбросов (Outlier) и проч.
-5

Среднее арифметическое и библиотека statistics

Рассчитать среднее автоматически позволит библиотека statistics. Установим библиотеку и импортируем ее для начала:

-6
-7

Инициализируем список:

-8
-9

Среднее геометрическое

Среднее геометрическое (Geometric Mean) – корень N-й степени из произведения всех значений:

-10

Если выборка содержит два значения, мы извлекаем квадратный корень из перемноженных элементов. Для трех значений используется кубический корень и так далее.

Пример. Как построить квадрат той же площади, что и прямоугольник 2 x 18? Вычислим среднее геометрическое:

-11

-12

Наш квадрат будет иметь ту же площадь (36), и ребра, равные 6.

В Машинном обучении (ML) Критерий G-Mean (Geometric Mean) – это Среднее геометрическое, определяющее качество классификации большинства и меньшинства. Низкий G-Mean-критерий является признаком плохой работы Модели (Model) в Бинарной классификации (Binary Classification) для положительных случаев.

Среднее геометрическое и SciPy

Среднее геометрическое можно вычислить с помощью функции SciPy gmean():

-13
-14
-15

Среднее гармоническое

Среднее гармоническое (Harmonic Mean) – количество значений, поделенное на сумму обратных величин:

-16

В Машинном обучении Критерий F1 ( F1 Score), показатель оценки эффективности модели, – это Среднее гармоническое Точности измерений (Accuracy) и Отзыва (Recall).

Среднее гармоническое и SciPy

Среднее гармоническое значение можно вычислить с помощью функции SciPy hmean():

-17
-18
-19

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте наши курсы по Машинному обучению на Udemy.