Найти тему

С чего начать статистический анализ? Часть 2

Друзья, продолжаем делиться нашими лайфхаками!

В первой части мы поговорили о мерах центральной тенденции, а теперь перейдем к мерам разброса

✅Дисперсия измеряет, насколько далеко точки данных отстоят от среднего значения.

▫️Большая дисперсия указывает на то, что точки данных сильно разбросаны, а малая дисперсия указывает на то, что точки данных находятся ближе к среднему значению набора данных.

▪️Сама по себе дисперсия крайне неудобна для понимания. Например, измеряя дисперсию по признаку “рост в сантиметрах” мы получаем значение в сантиметрах в квадрате.

✅Стандартное отклонение - квадратный корень из дисперсии.

▪️Эта величина уже гораздо более часто используется в публикациях для описания разброса данных относительно среднего.

✅Квартили - это три точки в наборе данных, которые делят набор данных на четыре равные части.

▪️Q1, Q2 и Q3 - это первый, второй и третий квартили набора данных.

25% значений данных лежат ниже Q1, а 75% - выше.

50% значений лежат ниже Q2 и 50% - выше.

▫️Q2 - это не что иное, как медиана.

75% значений данных лежат ниже Q3, а 25% - выше.

Всем известен анекдот про среднюю температуру по больнице😅

✔️Чтобы избежать подобных ошибок при описании данных необходимо соблюдать простое правило: выборка, подчиняющаяся нормальному закону распределения описывается при помощи среднего и стандартного отклонения.

✔️ А для описания данных, значимо отличных от нормальных лучше использовать медиану и Q1 - Q3.

Дальше мы поговорим с вами о том, что такое нормальное распределение и как определить, насколько значимо имеющаяся выборка отличается от нормальной.