Друзья, продолжаем делиться нашими лайфхаками!
В первой части мы поговорили о мерах центральной тенденции, а теперь перейдем к мерам разброса
✅Дисперсия измеряет, насколько далеко точки данных отстоят от среднего значения.
▫️Большая дисперсия указывает на то, что точки данных сильно разбросаны, а малая дисперсия указывает на то, что точки данных находятся ближе к среднему значению набора данных.
▪️Сама по себе дисперсия крайне неудобна для понимания. Например, измеряя дисперсию по признаку “рост в сантиметрах” мы получаем значение в сантиметрах в квадрате.
✅Стандартное отклонение - квадратный корень из дисперсии.
▪️Эта величина уже гораздо более часто используется в публикациях для описания разброса данных относительно среднего.
✅Квартили - это три точки в наборе данных, которые делят набор данных на четыре равные части.
▪️Q1, Q2 и Q3 - это первый, второй и третий квартили набора данных.
25% значений данных лежат ниже Q1, а 75% - выше.
50% значений лежат ниже Q2 и 50% - выше.
▫️Q2 - это не что иное, как медиана.
75% значений данных лежат ниже Q3, а 25% - выше.
Всем известен анекдот про среднюю температуру по больнице😅
✔️Чтобы избежать подобных ошибок при описании данных необходимо соблюдать простое правило: выборка, подчиняющаяся нормальному закону распределения описывается при помощи среднего и стандартного отклонения.
✔️ А для описания данных, значимо отличных от нормальных лучше использовать медиану и Q1 - Q3.
Дальше мы поговорим с вами о том, что такое нормальное распределение и как определить, насколько значимо имеющаяся выборка отличается от нормальной.