Стандартное отклонение (σ, s) – это мера разброса в наборе числовых данных. Выражаясь простыми словами, насколько далеко от Среднего арифметического (Mean) находятся точки данных. Его также можно назвать мерой центральной тенденции: чем меньше стандартное отклонение, тем более «сгруппированы» данные вокруг центра (среднего). Чем отклонение больше, тем больше разброс значений.
Стандартное отклонение в статистике
Метрика рассчитывается с помощью следующей формулы:
Пример. Мы располагаем выборкой из 10 наблюдений, где указано, сколько килограммов томатов собрали дачники в этом месяце:
Средним значением выборки будет 7,7:
Следуя формуле, вычислим квадрат разницы между i-м элементом выборки и средним значением. К примеру, для первого вхождения это будет (5 - 7,7)^2 = 7,29:
Причина, по которой мы возводим разницы в квадрат, заключается в том, что большие отклонения от среднего как бы "наказываются" более сурово. Возведение в квадрат также приводит одинаковому учету отклонений в обоих направлениях (положительном и отрицательном), то есть расстояние от среднего значения у отрицательного и положительного числа будет рассчитано верно в обоих случаях.
Суммой значений правого столбца является число 64,1. Итак, согласно формуле стандартное отклонение будет равно:
Стандартное отклонение в Машинном обучении
Представьте, что перепись "томатного" населения приобрела более широкие масштабы, и исследователи собрали данные о целом климатическом поясе. Мало тех, кто собрал по 2 килограмма, и тех, кто собрал 50. В среднем, садоводы собирали 25 кг.
При создании модели прогнозирования урожая стандартное отклонение уточняет наши предположения с помощью следующих принципов:
- С вероятностью 68% следующее наблюдение будет лежать в пределах одного отклонения от среднего (25 ± 6,41), то есть в диапазоне 18,59 - 31,41 кг.
- С вероятностью 95% следующий дачник сообщит, что собрал томатов. в пределах двух стандартных отклонений от среднего значения (25 ± 2 × 6,41), то есть 12,18 – 37,82 кг.
- С вероятностью 99% размер урожая будет лежать в пределах 3 отклонений (25 ± 3 × 6,41): 5,77 – 44,23 кг.
Библиотека Statistics
Рассчитывание стандартного отклонения выполняется мгновенно с помощью библиотеки statistics:
На выводе получаем следующее:
Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте наши курсы по Машинному обучению на Udemy.