Стандартизованная оценка (z) – метрика, характеризующая удаленность Наблюдения (Observation) от Среднего значения (Mean) Генеральной совокупности (Population). Иными словами, на сколько стандартных отклонений ниже или выше среднего находится наблюдение. Рассчитывается для каждого из них с помощью формулы:
Пример. Мы располагаем Выборкой (Sample) из 10 наблюдений, где указано, какие оценки по литературе получил класс:
Средним арифметическим значением (Mean) выборки будет 3,6:
Для вычисления z-оценок нам потребуется также Стандартное отклонение (Standard Deviation) , которое рассчитывается с помощью формулы:
Следуя формуле, вычислим квадрат разницы между i-м элементом выборки и средним значением. К примеру, для первого вхождения это будет:
Для каждой из наших оценок такой квадрат разницы будет равен числам справа:
Сумма значений правого столбца, разделенная на количество наблюдений, и даст нам значение коэффициента стандартного отклонения:
Теперь мы можем вычислить z-оценки для каждого наблюдения. К примеру, для первого из них она будет равна:
Применение
Z-оценка – это способ сравнить результаты с «нормальной» частью совокупности. Результаты тестов или опросов имеют тысячи возможных результатов и единиц измерения, что затрудняет сравнение. Например, мы знаем, что вес человека составляет 150 фунтов, но сравнивать его с обширными табличными данными может быть трудозатратным (особенно если некоторые веса записаны в килограммах). Z-оценка может сказать вам, где вес этого человека находится на шкале "от дефицитного до избыточного".
Теперь, когда мы понимаем, что такое стандартное отклонение, не составит труда запомнить, что z-оценка – это лишь количество стандартных отклонений, на которые удалено наблюдение от среднего. Принято считать, что наблюдение выходит за пределы нормального, если абсолютное значение его z-оценки превышает 2 (то есть меньше -2 и больше 2).
Таблица z-оценок
Зная z-оценку, мы можем вычислить занимаемую площадь под кривой нормального распределения. В примере про оценки за литературу у оценки "двойка" коэффициент равен -0,37:
Чтобы уточнить площадь ярко-розовой части фигуры, используется таблица z-оценок, в данном случае, для отрицательных значений коэффициента. Для числа '-0,37' мы должны найти строку '0.3' в левом столбце z и столбец с названием '0,7':
На пересечении этих элементов таблицы находится число 0,35569, и это не только площадь фигуры, но и долю студентов за этой чертой успеваемости. Таким способом вычисляют самых способных студентов.
Стандартизированная оценка и SciPy
Стандартизированную оценку можно вычислить с помощью метода SciPy:
Мы получим такие значения коэффициентов:
Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал . И попробуйте наши курсы по Машинному обучению на Udemy .