Приветствую тебя, мой читатель. В этой статье я расскажу тебе о такой вещице как статистика. Мы рассмотрим от куда берётся статистика, как выборка влияет на достоверность статистики, и почему статистику важно учитывать в различных ситуациях. На последок я оставлю пару слов о том, чем статистика отличается от математического ожидания. Для того чтобы нам было проще разобраться возьмём самый простой случай — подбрасывание монетки. Этого нам будет более чем достаточно для понимания основ статистики...
Почему #статистика такая сложная? Спойлер: все из-за проблемы выборки Давайте предположим, что нам надо узнать, сколько зарабатывают жители вашего города. Да так, чтобы посмотреть на одно число и все понять — в вашем городе работать выгоднее, чем в соседнем, или нет. Те, кто читал вводный пост по статистике, скажут, что надо взять среднее или медиану, и все станет ясно. Это так. Но на основе чего считать среднюю — опрашивать всех поголовно? Одно дело, когда надо опросить 10 человек в глухой деревне, и другое — 10 тысяч человек в районном центре. А что делать с городами-миллиониками? Очевидно, что надо опрашивать не всех жителей, а какую-то группу. Вопрос только в том, как, изучив небольшую группу, распространить выводы на всех жителей города? А в этом-то и кроется объяснение, почему статистика такая сложная — чтобы результаты исследования по выборке можно было распространить на все наблюдения (генеральную совокупность), приходится возить с математикой и непонятными абстракциями. Вся проблема в том, что очень трудно подобрать выборку, которая правильно «представит» генеральную совокупность. Эта проблема называется ошибкой репрезентативности, и ее проще допустить, чем не допустить. Если в нашей задаче про зарплату жителей вы опросите только своих родителей, то совершите эту ошибку, потому что, к примеру, родители могут быть на пенсии, но это не значит, что средний житель вашего города — пенсионер. В чем секрет хорошей выборки? Нужно следовать двум принципам: повторности и рандомизации. Повторность означает, что в вашу выборку должно попасть достаточное количество человек, ведь они занимаются разными вещами и имеют разные зарплаты. Когда мы опрашивали членов семьи, то мы соблюдали этот принцип, но не полностью — выборка была слишком маленькой. Сколько же надо опростить людей? В статистике есть магическое число 30, мол 30 и выше — это комильфо, а все что меньше — не серьезно. В статистике есть специальные тесты мощности, которое дают понимание, какой размер выборки нужен для вашего исследования. В экономике, однако, эти тесты применяются нечасто, потому что мы работает с ограниченными данными. Например, когда исследуем ВВП страны, а статистика есть лишь за последние 10 лет. Второй важный принцип — рандомизация. Он означает, что объекты в выборку должны попасть абсолютно случайно. И это не так легко, как кажется. Потому что когда вы пойдете опрашивать людей, то может случиться, что те, кто зарабатывают мало, просто откажутся отвечать. Или вы постесняетесь подходить к незнакомым людям и опросите только свое окружение. В общем, если выборка не будет «случайной», то и выводы будут актуально только для вашей выборки, а не генеральной совокупности и смысла в таком исследовании мало. Примечание Ради правды надо сказать, что иногда выброчные исследования дают даже лучший результат, чем сплошные. Например, если посмотреть результаты сплошной переписи населения России 1897 г., то получается, что максимальные численности («пики») имеют возраста кратные 5 и в особенности кратные 10. Как так вышло? Большая часть населения в те времена была неграмотна, и свой возраст помнила только приблизительно, с точностью до пяти или до десяти лет, так что перепись явно показала неточные результаты. Как же тогда надо было организовать это исследование, что думаете? Простая экономика