Найти тему

Статистические ловушки

Оглавление
Множество огней - множество людей - множество данных
Множество огней - множество людей - множество данных

«Ловкой обработкой одного и того же материала можно выжать из него ... прямо противоположные заключения». 1914 г, А.А. Чупров 

Чтобы охватить большинство случаев манипуляции со статистическими рисками, мы закончим там, где, собственно, начинается статистика. Никакого коэффициента Стьюдента и распределения Гаусса. Только те термины и примеры, понимание которых не требует знаний, выходящих за пределы школьной программы.

Самый популярный термин, используемый, в большинстве информации о статистических выкладках, это среднее значение.

Среднее значение

Здесь таится и первый подвох. В статистике нет просто среднего значения. Есть среднее арифметическое (и в большинстве случает речь идет именно о нём), мода и медиана. 

Среднее арифметическое получается, если разделить сумму значений на количество. 

Медиана – значение среднего элемента диапазона, ранжированного по количеству.

Мода – самое частое значение.

Если, к примеру, ученики в классе имеют рост 150, 142, 155, 145, 160, 144, 160, то

Среднее арифметическое получим =150,857143=151

Медиану получим, выбрав средний элемент из ранжированного списка: 142, 144, 145,150,155,160,160. Четвертый элемент 150.

Мода – самый популярный элемент. И в этом классе это 160.

Чем более однородное распределение, то есть в нашем случае – чем ближе рост учеников друг к другу, тем ближе друг к другу эти значения. Они совпадают, только если в распределении нет других вариантов.

При принятии решений, ориентированных на значение среднего возможны следующие ошибки:

Ошибка исключения

Происходит, если по случайной выборке делается вывод о всем распределении. 

Увидев вместе играющих трех детей из этого класса, можно получить среднее арифметическое от (142+144+145)/3 =143,7 до (155+160+160)/3= 158,3. Если выборка больше, то и ошибка исключения может быть больше. 

Поэтому при опросах общественного мнения, когда на основе опроса несколько сотен или тысяч человек делается вывод о мнении граждан страны, очень важно, чтобы выборка была репрезентативной, то есть выборка должна быть составлена пропорционально по возрасту, полу, уровню образования и другим характеристикам. 

Полимодальное распределение

Еще одна ловушка при распределении среднего – полимодальное распределение. Говорит о том, что в распределении присутствует несколько кластеров. Простейший вариант – бимодальное распределение, в котором присутствует два кластера. Например, среднее арифметическое показывает, что в среднем школьник посещает один кружок. Подробное рассмотрение покажет, что есть большое число детей, не посещающее кружки, в том числе из-за их отсутствия в населенных пунктах с низкой плотностью населения, а есть школьники, которые посещают два кружка и более. В этой ситуации среднее арифметическое и медиана окажутся посередине и ничего не скажут о том, что происходит в реальности.

Частный случай полимодального распределения – бимодальное.
Частный случай полимодального распределения – бимодальное.

Экологическая ошибка

Еще один пример важности однородной выборки и опасности использования только среднего арифметического, известный как экологическая ошибка. Рассмотрим два населенных пункта. В каждом живет по 100 человек. 

Поселок А

  • 99 человек с доходом 80 000 рублей
  • 1 человек с доходом 5 000 000 рублей

Поселок Б

  • 50 человек с доходом 100 000 рублей
  • 50 человек с доходом 140 000 рублей

Если оценивать покупательную способность жителей по среднему арифметическому доходов, то у жителей поселка А доход выше (129 и 120 тысяч соответственно). Но в 99 случаях из 100 доход жителя поселка Б будет выше дохода жителя А. Большое отклонение моды (80 для А и 120 для Б) от среднего арифметического является индикатором неоднородности выборки.

Вот несколько примеров манипуляции данными на основе среднего.

Зная их и способы манипуляции визуальной информацией, описанные, в том числе, здесь

Как понимать числа и графики

Визуализация и ее приемы

Отсутствие осей на графике как способ заставить «достроить» информацию

Искажение информации. Усеченная ось

Разрыв в осях графиков как способ манипуляции визуальной информацией

Двойная ось на графике - полезный инструмент визуализатора

Основные ошибки при использовании круговой диаграммы

можно обезопасить себя от большинства подтасовок данных.

А как Вы обманывались средники значениями?

Наука
7 млн интересуются