Найти в Дзене

Standard Deviation в Машинном обучении простыми словами

Оглавление
Фото: @danielodowd
Фото: @danielodowd

Стандартное отклонение (σ, s) – это мера разброса в наборе числовых данных. Выражаясь простыми словами, насколько далеко от Среднего арифметического (Mean) находятся точки данных. Его также можно назвать мерой центральной тенденции: чем меньше стандартное отклонение, тем более «сгруппированы» данные вокруг центра (среднего). Чем отклонение больше, тем больше разброс значений.

Стандартное отклонение в статистике

Метрика рассчитывается с помощью следующей формулы:

-2

Пример. Мы располагаем выборкой из 10 наблюдений, где указано, сколько килограммов томатов собрали дачники в этом месяце:

-3

Средним значением выборки будет 7,7:

-4

Следуя формуле, вычислим квадрат разницы между i-м элементом выборки и средним значением. К примеру, для первого вхождения это будет (5 - 7,7)^2 = 7,29:

-5

Причина, по которой мы возводим разницы в квадрат, заключается в том, что большие отклонения от среднего как бы "наказываются" более сурово. Возведение в квадрат также приводит одинаковому учету отклонений в обоих направлениях (положительном и отрицательном), то есть расстояние от среднего значения у отрицательного и положительного числа будет рассчитано верно в обоих случаях.

Суммой значений правого столбца является число 64,1. Итак, согласно формуле стандартное отклонение будет равно:

-6

Стандартное отклонение в Машинном обучении

Представьте, что перепись "томатного" населения приобрела более широкие масштабы, и исследователи собрали данные о целом климатическом поясе. Мало тех, кто собрал по 2 килограмма, и тех, кто собрал 50. В среднем, садоводы собирали 25 кг.

-7

При создании модели прогнозирования урожая стандартное отклонение уточняет наши предположения с помощью следующих принципов:

  • С вероятностью 68% следующее наблюдение будет лежать в пределах одного отклонения от среднего (25 ± 6,41), то есть в диапазоне 18,59 - 31,41 кг.
  • С вероятностью 95% следующий дачник сообщит, что собрал томатов. в пределах двух стандартных отклонений от среднего значения (25 ± 2 × 6,41), то есть 12,18 – 37,82 кг.
  • С вероятностью 99% размер урожая будет лежать в пределах 3 отклонений (25 ± 3 × 6,41): 5,77 – 44,23 кг.

Библиотека Statistics

Рассчитывание стандартного отклонения выполняется мгновенно с помощью библиотеки statistics:

-8

На выводе получаем следующее:

-9

Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте наши курсы по Машинному обучению на Udemy.