Статистика - удивительно странный предмет. Она везде есть - но её как бы нет. Является единственным мерилой объективности, и при этом всегда врёт? Да, к тому же, и не мёд (в этом месте я присоединяюсь к удивлению Винни-Пуха). Что ж это за зверь такой, статистика?
Давайте разберёмся. И начнём с сухого определения. Статистика - отрасль знаний, наука, в которой излагаются общие вопросы сбора, измерения, мониторинга, анализа массовых статистических (количественных или качественных) данных и их сравнение; изучение количественной стороны массовых общественных явлений в числовой форме. Такое определение термину “Статистика” было дано в Малой Советской энциклопедии. Думаю, не стоит объяснять, что сюда входит достаточно много вещей - включая как те, которые мы используем в обычной жизни, так и совсем уж глубоконаучные. Поговорим про те, с которыми мы сталкиваемся в нашей жизни и которые используем сами и рассмотрим их особенности. Это следующие 3 вида статистики:
- статистика измерений. К этому виду относится обобщённая информация по любым измерениям. Например, количество заболевших/вылечившихся/умерших от ковида, или количество автомобилей, проданных определённым дилером, а также в целом по стране/миру - это именно такая статистика
- соцопросы. К этому виду относятся опросы населения, проводящиеся по научным методикам - с составлением выборки опрашиваемых, проведением проверки этой выборки на репрезентативность. Такие опросы, например, проводит ВЦИОМ.
- голосования. Сюда относятся и опросы среди подписчиков какого-либо сообщества, и голосования при принятии каких-либо решений. Примеры: Кто будет старостой группы? Кто идёт на корпоратив?
Далее в тексте более подробно пробежимся по всем трём обозначенным выше видам. Надеюсь это поможет понять, почему статистика одновременно является и самым объективным мерилом ситуации, и крайней степенью лжи
Общие принципы и цели
Любая статистика служит определённым целям. Из них как раз и формируется задание: что именно нужно собирать, по каким критериям сортировать информацию, и так далее. От правильности формулировки цели зависит всё. В том числе, будет ли получившаяся статистика отображать реальную информацию, или же будет ей противоречить.
Есть ещё одна деталь, и касается она оценки полученных результатов. Ибо любые цифры требуют объяснений, а уж это уже само по себе даёт определённую субъективность, ибо зависит от объясняющего. К слову, после анализа результатов может потребоваться уточнение запроса и повторное исследование.
Более подробно о каждом типе статистики - ниже. Отмечу сразу, что приведённая информация - это лишь примеры, не исключающие и иных сценариев использования указанных видов статистики
Статистика измерений
Примеры цели: оценка как текущих количественных показателей, так и динамики их изменения. Как уже приводил в пример выше - количество заболевших ковидом или иной болезнью. Те заболевшие, диагноз которых подтверждён, регистрируются в специальном реестре, из которого просто берутся данные за определённый период (например, за сутки). Таким образом, мы получаем цифру. Сама по себе она нам может ничего не сказать, но мы можем сравнить её с другой цифрой. Например, с количеством заболевших на другую дату - выполнив, таким образом, измерение изменения уровня заболеваемости. Или с общим количеством жителей населённого пункта или региона, в котором проживают заболевшие люди. И тогда мы получим суточное количество заболевших относительно общего количества населения населённого пункта или региона.
Погрешности статистики в данном случае зависят от двух вещей: от погрешности измерений (которые даёт любой измерительный инструмент) и равномерности выборки. Например, если мы возьмём статистику по заболевшим в пределах города, мы можем получить цифру в 0,01% жителей города. Этот параметр будем называть математическим ожиданием - неким усреднённым показателем статистики, который чаще всего и озвучивается. Но если мы посмотрим внимательнее, то увидим, что, например, в поликлинике №5 сегодня было зарегистрировано аж 2% от всех проживающих в районе обслуживания данной поликлиники, а в поликлинике №3 вообще никто не заболел. Этот параметр будем называть дисперсией, или разбросом данных статистики.
Искажение результатов здесь возможна в следующих случаях:
- Искажение входных данных
- Искажение публичных данных
В первом случае такое искажение может быть как умышленным, так и неумышленным. Сюда относится, например, округление результатов (что, в свою очередь, влияет на точность статистики), человеческий фактор (например, при пересменке очередного больного забыли занести в базу) или желание показать ситуацию в определённом свете – для тех, кто запрашивал данные измерений и анализирует их. Собственно, речь идёт об искажении входных данных, о масштабе которого судить получатели этих данных не могут. Пример такого искажения запечатлён в фильме "Доброе утро" (СССР, 1955 год). Вот фрагмент оттуда:
Во втором случае подобное искажение сравнимо с «двойной бухгалтерией» - то есть, фактически, мы имеем дело с двумя результатами статистики: реальным и публикуемым.
Разница будет в том, что в первом случае ошибка находится на этапе измерений – а, следовательно, не может быть управляема теми, кто эти измерения получает. Как результат – вскрытие расхождений по данной ошибке может привести, например, к более жёстким мерам реагирования на ситуацию, чем следует. Что же касается второго случая – полагаю, что такое может использоваться, например, для более плавного вывода какого-либо показателя, который изменяется скачкообразно. Чтобы было понятнее, приведу в пример указатель уровня топлива в автомобиле. Когда машина едет, топливо в баке колышется, и стрелка указателя уровня топлива может «прыгать» через всю шкалу – особенно, если топливный бак заполнен примерно на половину, а дорога имеет либо неровности, либо меняющийся уклон. Узнать текущий уровень топлива при этом довольно сложно, потому что стрелка показывает то треть бака, то две трети. Чтобы это не происходило, инженеры уже давно внедряют разного рода демпферы: либо конденсатор впаяют, либо сделают так, что стрелка внутри самого указателя движется с некоторым усилием, либо (если указатель полностью цифровой) введут в бортовом компьютере хитрый алгоритм расчёта текущего уровня топлива в баке. В результате водитель видит некоторое усреднённое значение уровня топлива, которое стремится к реальному. То же самое и здесь: такое искажение даёт корректировку, которая, например, плавно подводит потребителей данной статистики к некоему среднему уровню значений (например, общество – если мы говорим об уровне заболеваемости, подводится к среднему уровню заболеваемости в регионе).
Основная опасность подобной ручной корректировки заключается в том, что любую статистику, основанную на измерениях, можно проверить. Да, я знаю, что далеко не вся информация является публичной, но можно попытаться сделать контрольные замеры по известным данным в разные периоды времени, и выявить различия между официальной и реальной статистиками. И если официальная статистика отличается от реальности длительное время, это становится сильно заметно.
Именно благодаря проверяемости результатов я, несмотря на все описанные выше нюансы и погрешности, считаю этот вид статистики наиболее точным. При этом призываю не забывать о правиле измерительных инструментов, которое для такой статистики тоже применимо: любое измерение имеет погрешность, которая тем выше, чем больше измерений и инструментов будет использовано. Можно сравнивать результаты статистических замеров между собой, но вряд ли можно сказать, что каждый раз эти замеры будут давать абсолютно точные значения
Статистика соцопросов
Примеры цели: определение мнения общества по какому-либо вопросу. Под "обществом" при этом может пониматься как население города или страны, так и аудитория какого-либо сообщества людей - например, паблика в социальной сети или аудитории сайта. Этот тип легко можно спутать с третьим (голосования, описан ниже), и дьявол, как обычно в таких случаях, кроется в деталях. Дело в том, что соцопросы ставят своей целью определение среза мнений общества, что, вкупе с размерами исследуемой группы, накладывает свои особенности. Например, именно для этого типа статистики введено понятие репрезентативности выборки, которое является определяющим и от которого, кстати, зависит погрешность результатов статистики.
Приведу пример из схожей сферы - контроль качества продукции на промышленном производстве. По сути, это похоже на соцопросы тем, что контролёру ОТК в данном случае требуется оценить принадлежность огромной партии товара к качественной или некачественной продукции. Для этого нужно определить процент брака этой самой продукции. Согласитесь, если у нас 10, или даже 100 относительно простых изделий (например, антипригарные сковородки), их можно проверить вручную. А если у нас их тысячи? И это не сковородки, а кухонные комбайны? Тут уже метод сплошных измерений займет столько времени, что нужно будет либо очень сильно расширять штат, либо резко сокращать объем отгрузок - а, значит, и объем производства. Думаю, не надо объяснять, что каждое изделие и в том,и в другом случае станет "золотым". Так вот: чтобы этого не случилось, существуют оценочные измерения. Из каждой партии берется некоторое количество изделий, качество которых проверяется,что называется, по всей строгости. Если хотя бы одно из них оказывается бракованным - производится контроль дополнительного количества изделий. Если после этого обнаруживается 2 бракованных изделия - принимается решение по всей партии: либо проводится ещё одна проверка, либо вся партия отправляется на сплошной контроль.
Пару слов о погрешностях. Помнится, когда я это узнал (я тогда работал в типографии довольно близко к производству), я задал резонный вопрос: ведь может так получиться, что в первую контрольную выборку не попадет ни одного бракованного продукта, но все они будут в той части выборки, которую контролёр не проверил? Ответ был такой: да, это возможно, но методика составляется таким образом, чтобы эту вероятность минимизировать. Так вот, с социологическими опросами то же самое: опросить поголовно всех жителей даже города с населением 20 тысяч человек - задача довольно трудоёмкая. Однако, есть некие подмеченные закономерности, позволяющие разделить людей на такие вот партии "по интересам". Далее среди этих партий выбирается некоторое количество человек, мнение которых определяется при помощи опроса. Означает ли это, что абсолютно все люди в каждой из этих партий ответят так же, как опрошенные? Нет. Но на то и существуют всякие хитрые методики, разработкой и внедрением которых занимаются социологи, чтобы дать выборке наиболее высокую точность по части охвата опрашиваемого населения. Собственно, такой подход и называется опросом по репрезентативной выборке, а более подробно об этом подходе желающие могут почитать, например, здесь.
Из описанного выше становится понятно, что степень различных искажений информации при таком подходе будет чуть ли не максимальной априори. Хотя, конечно, она может быть уменьшена при качественном создании выборки и грамотном анализе результатов. Однако, такие вещи, как качественно созданная выборка и грамотно проанализированные результаты в подобном виде статистики существуют далеко не всегда. А, поскольку опросы часто проводятся на животрепещущие темы, здесь могут появляться и побочные искажения - в виде собственной трактовки результатов различными околоаналитическими СМИ (в широком понимании этого слова - то есть любыми трансляторами информации от источника к аудитории). Ещё одним видом искажения в данном случае является экстраполяция результатов. Например, когда опрос, находящийся внутри какого-либо паблика в соцсети, выдаётся за мнение людей всего города/региона/страны/мира. Часто такие вещи совершаются в целях получения определённого результата в информационном, политическом или ином поле. Подобная экстраполированная статистика при этом используется как мощный аргумент - без упоминания того, где, кем и как она была собрана.
Статистика голосований
Примеры цели: определение цвета забора во дворе, выбор символа команды, выбор старосты группы, фильма для просмотра, блюда на ужин. Основное отличие от предыдущей группы - небольшое количество вопросов с максимальной конкретикой формулировок. Государственные или муниципальные выборы любого уровня, кстати, тоже относятся к этой категории. Если совсем просто - данный вид статистики нужен для того, чтобы оценить решение опрашиваемой аудитории по тому или иному вопросу. Получив результаты, исследователь может либо принять соответствующее решение, либо просто “взять на карандаш” текущую ситуацию. К слову, социологические опросы на тему “если бы выборы были сегодня, за кого бы вы проголосовали?” я бы тоже отнёс к этой категории - даже несмотря на то, что в них может использоваться метод замера по репрезентативной выборке.
Погрешностью данного вида статистики в любом случае будет игнорирование мнения тех, кто в таком опросе-голосовании не участвовал. Этим подобный вид статистики роднится с соцопросами. В принципе, иначе тут быть не может - ведь те, кто не участвовал в голосовании, не могли (или не посчитали нужным) сообщить своё мнение по выдвинутым вопросам. У такой ситуации есть две стороны. Первая - для лиц, принимающих решение - говорит о так называемом “количестве воздержавшихся” - то есть отношении общего числа аудитории к тем, кто проголосовал. Проще всего это определить, если вы устраиваете голосование в паблике, который администрируете. Правда, здесь тоже может быть своя погрешность: возможно, человек, который не принял участие в Вашем голосовании, уже давно не заходит в паблик и даже не в курсе того, что в нём было голосование. Часто также бывает, что человек не может найти подходящий для себя вариант ответа в голосовании, и поэтому просто проходит мимо опроса. Уже по этим причинам категорично заявлять о том, что результаты голосования отражают абсолютно полное распределение мнений аудитории по заданным вопросам, некорректно. Тем не менее, мы всегда можем учитывать позицию лишь тех, кто её заявляет - и об этом тоже не следует забывать.
Искажения результатов в данном виде обусловлены, скорее, попыткой искажения данных по распределению голосов. Самый яркий пример - это вбросы и накрутки голосов. Наличие искажений при данном виде статистики может быть проверено - главное только помнить, что проверка должна быть тщательной. Ибо, помимо искажений реальных, при голосовании может иметь место симуляция искажений. Это когда результаты не были подделаны, но проходит заявление о том, что они некорректны, после чего либо выдвигается требование их пересмотра, либо выполняется их пересмотр в какую-либо сторону. Впрочем, здесь, с одной стороны, довольно благодатная почва для споров о результатах, а с другой - до определённых размеров охвата голосующей аудитории подобная подобные искажения становятся очевидны.
Статистические курьёзы
Уровень доверия
Несколько лет (2018-2019 год, если я не ошибаюсь) назад была история. ВЦИОМ (если не ошибаюсь) проводил опрос граждан «на тему доверия» тем или иным политикам. В списке были президент РФ Владимир Путин, лидеры партий, прошедших на выборы в Государственную Думу РФ, а также известные чиновники разных уровней. Если я правильно помню, вопрос звучал так: “к кому Вы бы обратились из данного списка для решения своих проблем?” Многие указывали местных чиновников, но находились и те, кто выбирал указанных политиков высшего государственного уровня. Например, президента РФ В. В. Путина указало порядка 30% опрошенных. Буквально на следующий день после официальной публикации результатов несколько газет выпустили материал под названием “Рейтинг Путина рекордно упал: ему доверяют только 30% населения страны”. Интересный пример трактовки, правда? ВЦИОМ пытался сначала объяснять, что в данном опросе не показывался рейтинг доверия к президенту, а целью было просто узнать, к кому люди пойдут для решения своих проблем. И то, что высокий процент получили местные чиновники - вполне ожидаемый результат. Но волна уже пошла, и остановить её было сложно. Тогда ВЦИОМ провёл ещё один опрос. В нём был всего один вопрос: “Доверяете ли Вы президенту РФ В. В. Путину?” Результат был вполне нормальный для президента в то время (точную цифру ответивших утвердительно, к сожалению, не помню, но явно больше чем в 2 раза от “первоначального” значения). После публикации данных этого опроса ВЦИОМ ещё раз объяснили разницу между первым и вторым опросом, подчеркнув, что судить по первому опросу об уровне доверия населения президенту РФ некорректно, поскольку об этом даже не спрашивали у респондентов.
Не порти статистику нам
Здесь в качестве примера предлагаю к просмотру номер из КВН, который тоже имеет отношение к статистике, пусть и косвенное
Средние зарплаты
У нас очень любят рассуждать на тему средних зарплат. Меж тем, эта цифра - всего лишь относительный показатель, не более. Например, по данным Росстата, средняя номинальная зарплата в России по состоянию на декабрь 2021 года составляла 77 994,2 рубля. Распространённое мнение, что статистика завышена, основано на том, что в ряде «простых рабочих профессий» зарплата существенно ниже. Да я и сам недавно, просматривая один из сайтов с вакансиями, видел там объявление о поиске руководителя отдела с зарплатой в 60 тысяч рублей. Как же так может быть-то? Но в том-то и дело, что мы с вами не знаем абсолютно всех людей, а статистика измерений знает всех (обезличенные данные по зарплатам Росстат может получить, например, от Федеральной Налоговой Службы, в которой как раз-таки всех и посчитали). Да и цифра эта является, скажем так, очень сильно средним по больнице, поскольку показывает среднюю зарплату по всем отраслям всей страны. А если мы пойдём всего лишь на один уровень глубже и посмотрим средние зарплаты по отраслям, то увидим разброс цифр от 28 282,7 до 263 938,1 рублей. Сразу скажу, что самая низкая средняя зарплата имеется в сфере производства одежды, а самая высокая – в сфере финансовой и страховой деятельности. Но не думайте, что это означает, что абсолютно все страховщики и финансисты гребут деньги лопатами – там уже свой разброс как средних, так и реальных зарплат. И я не удивлюсь, если найдётся страховой агент, получающий меньшую зарплату, чем, скажем, директор фабрики по пошиву одежды. Почему я сравнил эти должности? Да потому, что каждая из них входит в ту сферу деятельности, которые мы сравниваем – а, значит, зарплата сотрудника, занятого на ней, тоже добавляет свой вклад в то среднее значение, которое я привёл.
У меня заготовлено ещё несколько материалов такого свойства, да и в будущем я планирую дальше продолжать тему ликбеза. Так что подписывайтесь, если данные вещи Вам понятны и интересны. Репосты приветствуются, а желание поощрить автора не возбраняется. Если же у вас есть вопросы или замечания - я всегда готов обсудить их в комментариях. Но напомню, что комментарии с неаргументированной критикой могут быть удалены.
#статистика #rgoblin размышляет #rgoblin ликбез