Найти тему
Математика не для всех

Невероятный парадокс Симпсона или как статистика нагло врёт, если мы сами это позволяем

Приветствую Вас, уважаемые Читатели! Сегодня я хочу в очередной раз рассказать Вам о том, что к статистическим данным, получаемым из любых источников следует относиться очень аккуратно.

Одним из таких явлений, сильно влияющих на восприятие информации является парадокс Симпсона. Итак, разберемся, в чём он заключается. Поехали!

Похожие статистические явления были впервые описаны  Карлом Пирсоном и Удни Юлом в 1903 год в исследованиях по изменчивости пород лошадей. Однако в технической литературе первым парадокс описал как раз Эдвард Х. Симпсон
Похожие статистические явления были впервые описаны Карлом Пирсоном и Удни Юлом в 1903 год в исследованиях по изменчивости пород лошадей. Однако в технической литературе первым парадокс описал как раз Эдвард Х. Симпсон

Суть парадокса заключается в том, что когда приводятся проценты для нескольких групп, каждая из которых разбита на подгруппы, кажется что налицо определенная зависимость.

Однако, в действительности всё может быть не так: причинно-следственная интерпретация данных может не иметь ничего общего с действительностью!

Давайте на простом примере. Пусть известно следующее распределение рабочих мест/кандидатов/принятых на работу в некой организации:

Мир математики- 13. Изд. Deagostini
Мир математики- 13. Изд. Deagostini

Посмотрев итоговые данные, и не анализируя остальные, казалось бы, можно сделать вывод о том, что женщины дискриминируются при приеме на работу, ведь из 355 мужчин работу получили 53,5%, а их 325 женщин - всего 18,5 %.

Однако, оценив полную картину, мы получим прямо противоположные выводы: в службе монтажа получило место значительно больше мужчин, чем женщин по объективным причинам.

В остальных группах же, наоборот, соотношение в пользу женщин: их в процентном соотношении принято на работу даже больше!

Таким образом, одна из подгрупп (самая массивная) потянула за собой всю статистику, на основании чего можно сделать ложный вывод!
Геометрический пример, описанного выше парадокса Симпсона: есть две положительные тенденции для разных подгрупп. Однако, если мы объединим данные, то получим тенденцию уже негативную (пунктирная линия). Источник: https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/Simpson%27s_paradox_continuous.svg/585px-Simpson%27s_paradox_continuous.svg.png
Геометрический пример, описанного выше парадокса Симпсона: есть две положительные тенденции для разных подгрупп. Однако, если мы объединим данные, то получим тенденцию уже негативную (пунктирная линия). Источник: https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/Simpson%27s_paradox_continuous.svg/585px-Simpson%27s_paradox_continuous.svg.png

Еще более интригующим может быть такое проявление парадокса в жизни. Пусть у нас имеются данные о зависимости количества часов физических упражнений в неделю от риска развития заболевания, при мы разбили выборку на две подгруппы: старше и младше 50 лет:

Слева - меньше 50 лет: чем больше часов упражнений, тем меньше риск заболевания. На правом графике ситуация аналогичная.
Слева - меньше 50 лет: чем больше часов упражнений, тем меньше риск заболевания. На правом графике ситуация аналогичная.

А теперь мы объединим графики и чисто визуально столкнемся с противоположной тенденцией:

Источник: https://miro.medium.com/max/1252/1*pW9t5E9NKIyDtgwXRAXMYg.png
Источник: https://miro.medium.com/max/1252/1*pW9t5E9NKIyDtgwXRAXMYg.png

Оказывается на совокупности, физические упражнения уже приводят к повышенному риску данного заболевания! Что же происходит?

Здесь нужно немного включить интуицию и найти настоящую причинно-следственную связь, которая лежит на поверхности: риск заболевания очень сильно зависит от возраста:

Источник: https://miro.medium.com/max/2000/1*f11Th1taPaR35wAz0KAoIA.png
Источник: https://miro.medium.com/max/2000/1*f11Th1taPaR35wAz0KAoIA.png

Очень сильная зависимость именно от возраста "перевешивает" положительный тренд, который задают физические упражнения. Особенно наглядно можно описать этот факт на простой векторной диаграмме:

-7

На рисунке синим цветом представлены зависимости из одной подгруппы, оранжевой - из другой. B2 растет быстрее, чем L2 (наклон меньше), B1 растет быстрее, чем L1, однако векторная сумма говорит о том, что L1+L2 растёт быстрее!

К чему всё это? А к тому, что нужно семь раз подумать, прежде чем объединять какие-то данные вместе, выдавая, казалось бы, полную статистику.

Нужно находить именно причинно-следственные связи и на их основе выделять фактор-группы, для которых статистика будет на самом деле отражать текущие тренды.

С другой стороны уже нужно хладнокровно разделять большие статистические отчеты, выявляя в них специфические связи, а не верить конечной цифре. Главное правило: после - не значит вследствие.

  • Ставьте "Нравится" этому материалу и подписывайтесь на канал! Математика не для всех, но на любой вкус!
  • TELEGRAM и Facebook - там я публикую не только интересные статьи, но и математический юмор и многое другое.