Найти тему

Z-Score в Статистике

Оглавление
Фото: @mganeolsen
Фото: @mganeolsen

Стандартизованная оценка (z) – метрика, характеризующая удаленность Наблюдения (Observation) от Среднего значения (Mean) Генеральной совокупности (Population). Иными словами, на сколько стандартных отклонений ниже или выше среднего находится наблюдение. Рассчитывается для каждого из них с помощью формулы:

-2

Пример. Мы располагаем Выборкой (Sample) из 10 наблюдений, где указано, какие оценки по литературе получил класс:

-3

Средним арифметическим значением (Mean) выборки будет 3,6:

-4

Для вычисления z-оценок нам потребуется также Стандартное отклонение (Standard Deviation) , которое рассчитывается с помощью формулы:

-5

Следуя формуле, вычислим квадрат разницы между i-м элементом выборки и средним значением. К примеру, для первого вхождения это будет:

-6

Для каждой из наших оценок такой квадрат разницы будет равен числам справа:

-7

Сумма значений правого столбца, разделенная на количество наблюдений, и даст нам значение коэффициента стандартного отклонения:

-8

Теперь мы можем вычислить z-оценки для каждого наблюдения. К примеру, для первого из них она будет равна:

-9

-10

Применение

Z-оценка – это способ сравнить результаты с «нормальной» частью совокупности. Результаты тестов или опросов имеют тысячи возможных результатов и единиц измерения, что затрудняет сравнение. Например, мы знаем, что вес человека составляет 150 фунтов, но сравнивать его с обширными табличными данными может быть трудозатратным (особенно если некоторые веса записаны в килограммах). Z-оценка может сказать вам, где вес этого человека находится на шкале "от дефицитного до избыточного".

Теперь, когда мы понимаем, что такое стандартное отклонение, не составит труда запомнить, что z-оценка – это лишь количество стандартных отклонений, на которые удалено наблюдение от среднего. Принято считать, что наблюдение выходит за пределы нормального, если абсолютное значение его z-оценки превышает 2 (то есть меньше -2 и больше 2).

Таблица z-оценок

Зная z-оценку, мы можем вычислить занимаемую площадь под кривой нормального распределения. В примере про оценки за литературу у оценки "двойка" коэффициент равен -0,37:

-11

Чтобы уточнить площадь ярко-розовой части фигуры, используется таблица z-оценок, в данном случае, для отрицательных значений коэффициента. Для числа '-0,37' мы должны найти строку '0.3' в левом столбце z и столбец с названием '0,7':

-12

На пересечении этих элементов таблицы находится число 0,35569, и это не только площадь фигуры, но и долю студентов за этой чертой успеваемости. Таким способом вычисляют самых способных студентов.

Стандартизированная оценка и SciPy

Стандартизированную оценку можно вычислить с помощью метода SciPy:

-13

Мы получим такие значения коэффициентов:

-14

Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал . И попробуйте наши курсы по Машинному обучению на Udemy .