Найти в Дзене

p.1. Описательная статистика как способ у(х)лучшить твою жизнь

Статистика... Одно слово, а сколько боли)))
Давайте попробуем разобраться что это такое, с какой целью оно существует и реально ли пригодится тебе в будущем.
Спойлер: да. Сама по себе статистика представляет науку, занимающуюся в основном сбором и анализом данных. Что будет считаться "данными"? На самом деле статистике глубоко без разницы. Анализировать можно всё, главный вопрос - зачем. Например, сколько часов ты играешь в Геншин в зависимости от дня недели или как зависит количество часов твоего сна от новых серий "Слова пацана". С какой целью? Это уже другой вопрос... Главное, что данные окружают нас каждую секунду. Этот текст - данные, количество котиков во дворе - данные, рецепт кваса - данные. Только так уж вышло, что статистика больше любит числовые данные, просто потому что их проще анализировать. Вот представь, есть у тебя список имён участников BTS. Здорово, держи в курсе. По факту ничего ты с этой информацией не сделаешь, ну можешь буквы посчитать... А теперь представь, что

Статистика... Одно слово, а сколько боли)))
Давайте попробуем разобраться что это такое, с какой целью оно существует и реально ли пригодится тебе в будущем.
Спойлер: да.

Сама по себе статистика представляет науку, занимающуюся в основном сбором и анализом данных. Что будет считаться "данными"? На самом деле статистике глубоко без разницы. Анализировать можно всё, главный вопрос - зачем. Например, сколько часов ты играешь в Геншин в зависимости от дня недели или как зависит количество часов твоего сна от новых серий "Слова пацана". С какой целью? Это уже другой вопрос...

Главное, что данные окружают нас каждую секунду. Этот текст - данные, количество котиков во дворе - данные, рецепт кваса - данные. Только так уж вышло, что статистика больше любит числовые данные, просто потому что их проще анализировать. Вот представь, есть у тебя список имён участников BTS. Здорово, держи в курсе. По факту ничего ты с этой информацией не сделаешь, ну можешь буквы посчитать... А теперь представь, что у тебя есть рост каждого участника BTS? Или вес/год рождения/размер ноги... Что угодно, главное записано не буквами, и на том спасибо. Так вот, с этим уже можно работать!!

Числовой набор - это неупорядоченная числовая последовательность, конечная, кстати. В нашем случае - рост BTS (прости Господи).

Вот они слева направо:
Вот они слева направо:

Ну и мы сразу можем сделать какие-то выводы: кто самый низкий или высокий, сколько их вообще в группе человек... Это и будет анализом! Так как статистика всё же наука, давай попробуем разобраться, что она нам предлагает с этими данными делать.

В первую очередь стоит упомянуть среднее арифметическое. Самая базовая вещь анализа: посчитать среднее. Если быть формальным, то это среднее арифметическое - это центр набора чисел (иногда его ещё называют центр масс). Как его вычислить? Проще простого:

  • Посчитай, сколько у тебя всего чисел есть (в нашем случае 7);
  • Сложи все числа (181+179+.....+173);
  • Раздели полученную сумму на количество чисел. Вы великолепны!

И так мы выяснили, что среднестатистический Чонгук будет 177 см. Эти ненужные данные позволят сравнить, сколько человек в группе выше среднего роста, а сколько ниже.

В жизни ты часто встречаешься со средним арифметическим. Например, когда нужно посчитать оценку за четверть (сложил все оценки и разделил на их количество). Или, например, количество шагов за неделю в среднем - сумма всех шагов, поделенная на 7 (то есть количество дней недели).

Короче, классная штука, если бы не было у неё одной проблемы. Допустим, каждый месяц родители давали тебе на расходы 500 рублей. Только вот в марте у тебя др, поэтому в копилку подарили 10 тысяч. Знаешь, какой средний доход в месяц у тебя будет? 1292 рубля, то есть в два раза больше привычной месячной нормы.

Март в этом случае будет так называемым выбросом - значением, резко отличающимся от остальных и конкретно подпортившим нам картину. Ну ведь неправда, что ты получал столько в месяц.. В этом и есть главный минус арифметического среднего - резко отличающиеся значения могут сильно исказить реально существующую картину.

Для этого в статистике придумали другую штуку - медиану. Медиана - это центральное значение числового набора, упорядоченного по возрастанию. То есть чтобы найти её:

  1. Разместите все числа в порядке возрастания. Так как наш ряд уже не просто беспорядочный набор, ему дают новое классное название - вариационный ряд.
  2. Найдите число в середине ряда. Например, у BTS там стоит Чонгук с 178 см роста.

Что делать в том случае, если число будет чётным? Тогда по центру окажется два числа. В этом случае не паримся и просто складываем их и делим на 2.

Так вот, медиана твоего месячного дохода будет уже 500 рэ, что реально отражает картину и не зависит от выбросов. То есть медиана, в отличии от среднего арифметического, случае более показательная.

Что ещё мы можем сделать с набором данных? Найти максимальное и минимальное значение. Тут, думаю, всё понятно. Самое маленькое и самое большое. Проще всего сделать это в вариационном (упорядоченном) ряду - значения просто будут крайними. Условно: пришёл ты в магазин за пачкой чипсов и мысленно анализируешь, какие из них будут самые дешевые, а какие самые дорогие. Разница между максимальным и минимальным значением называется размах. Очень просто.

Зачем знать размах? Он тоже может указывать на ошибки и выбросы. Например, на соседней метеостанции каждый день фиксировали температуру в июле. По итогу за месяц получился размах в 40 градусов. Здорово, переделывайте. Сразу понятно, что не могла температура в июле так измениться, значит в данных есть ошибка (по вине прибора или человека - совсем другая история).

В общем, описательная статистика - это одна из важных частей нашей жизни, которую мы просто не замечаем. Просто попробуйте присмотреться к информации вокруг вас и сможете узнать чуточку больше. Спасибо за прочтение и надеюсь, что смогла сделать эту тему немного понятнее :)

P.S. Буду рада комментариям с предложениями, какую тему стоит разобрать ещё :)