339 подписчиков

С чего начать статистический анализ? Часть 2

9 сентября 20229 сен 2022

1 мин

Друзья, продолжаем делиться нашими лайфхаками! В первой части мы поговорили о мерах центральной тенденции, а теперь перейдем к мерам разброса ✅Дисперсия измеряет, насколько далеко точки данных отстоят от среднего значения. ▫️Большая дисперсия указывает на то, что точки данных сильно разбросаны, а малая дисперсия указывает на то, что точки данных находятся ближе к среднему значению набора данных. ▪️Сама по себе дисперсия крайне неудобна для понимания. Например, измеряя дисперсию по признаку “рост в сантиметрах” мы получаем значение в сантиметрах в квадрате. ✅Стандартное отклонение - квадратный корень из дисперсии. ▪️Эта величина уже гораздо более часто используется в публикациях для описания разброса данных относительно среднего. ✅Квартили - это три точки в наборе данных, которые делят набор данных на четыре равные части. ▪️Q1, Q2 и Q3 - это первый, второй и третий квартили набора данных. 25% значений данных лежат ниже Q1, а 75% - выше. 50% значений лежат ниже Q2 и 50% - выше. ▫️

Друзья, продолжаем делиться нашими лайфхаками!

В первой части мы поговорили о мерах центральной тенденции, а теперь перейдем к мерам разброса

✅Дисперсия измеряет, насколько далеко точки данных отстоят от среднего значения.

▫️Большая дисперсия указывает на то, что точки данных сильно разбросаны, а малая дисперсия указывает на то, что точки данных находятся ближе к среднему значению набора данных.

▪️Сама по себе дисперсия крайне неудобна для понимания. Например, измеряя дисперсию по признаку “рост в сантиметрах” мы получаем значение в сантиметрах в квадрате.

✅Стандартное отклонение - квадратный корень из дисперсии.

▪️Эта величина уже гораздо более часто используется в публикациях для описания разброса данных относительно среднего.

✅Квартили - это три точки в наборе данных, которые делят набор данных на четыре равные части.

▪️Q1, Q2 и Q3 - это первый, второй и третий квартили набора данных.

25% значений данных лежат ниже Q1, а 75% - выше.

50% значений лежат ниже Q2 и 50% - выше.

▫️Q2 - это не что иное, как медиана.

75% значений данных лежат ниже Q3, а 25% - выше.

Всем известен анекдот про среднюю температуру по больнице😅

✔️Чтобы избежать подобных ошибок при описании данных необходимо соблюдать простое правило: выборка, подчиняющаяся нормальному закону распределения описывается при помощи среднего и стандартного отклонения.

✔️ А для описания данных, значимо отличных от нормальных лучше использовать медиану и Q1 - Q3.

Дальше мы поговорим с вами о том, что такое нормальное распределение и как определить, насколько значимо имеющаяся выборка отличается от нормальной.