Добавить в корзинуПозвонить
Найти в Дзене
◼ ОБО ВСЁМ ◼

Как статистика обманывает: скрытые ловушки, которые искажают научные выводы

Иногда статистика выдаёт такие результаты, что в них сложно поверить. Возьмём, к примеру, случай в Калифорнийском университете в Беркли в 1970-х годах. Университет обвинили в дискриминации женщин: в аспирантуре 44 % мужчин поступали, а женщин — лишь 35 %. На этом основании решили, что мужчинам отдают предпочтение. Но всё изменилось, когда данные разбили по отдельным факультетам. Оказалось, что на четырёх из шести крупнейших факультетов женщин принимали чаще, чем мужчин. Более глубокий анализ, проведённый статистиком Питером Дж. Биккелем и его коллегами, показал: скорее, предпочтение оказывалось женщинам. В чём же дело? Это пример так называемого парадокса Симпсона — явления, которое сегодня хорошо известно в статистике. Впервые его описал в 1899 году математик Карл Пирсон, а четыре года спустя его коллега Джордж Удни Юл заново открыл тот же феномен. Но работы остались незамеченными — пока Эдвард Симпсон не опубликовал статью на эту тему в 1951 году. Суть в том, что общие тенденции могу

Иногда статистика выдаёт такие результаты, что в них сложно поверить. Возьмём, к примеру, случай в Калифорнийском университете в Беркли в 1970-х годах. Университет обвинили в дискриминации женщин: в аспирантуре 44 % мужчин поступали, а женщин — лишь 35 %. На этом основании решили, что мужчинам отдают предпочтение.

Но всё изменилось, когда данные разбили по отдельным факультетам. Оказалось, что на четырёх из шести крупнейших факультетов женщин принимали чаще, чем мужчин. Более глубокий анализ, проведённый статистиком Питером Дж. Биккелем и его коллегами, показал: скорее, предпочтение оказывалось женщинам.

В чём же дело? Это пример так называемого парадокса Симпсона — явления, которое сегодня хорошо известно в статистике.

Парадокс Симпсона
Парадокс Симпсона

Впервые его описал в 1899 году математик Карл Пирсон, а четыре года спустя его коллега Джордж Удни Юл заново открыл тот же феномен. Но работы остались незамеченными — пока Эдвард Симпсон не опубликовал статью на эту тему в 1951 году.

Суть в том, что общие тенденции могут меняться, если разбить данные на отдельные группы.

Вот ещё пример: по данным 2021 года, COVID-19 был почти вдвое смертоноснее в Италии, чем в Китае. При этом в каждой возрастной группе итальянцы имели более высокий шанс выжить. Получается, общая картина противоречит тому, что видно в отдельных группах.

Почему так происходит? Часто причина — скрытые факторы, которые влияют на результат. В случае с Беркли выяснилось, что женщины чаще подавали заявки на кафедры с высоким конкурсом и малым шансом поступить, тогда как мужчины выбирали факультеты, где было больше свободных мест и меньше претендентов.

Этот пример учит нас внимательно изучать статистику — и не забывать про факторы, которые могут искажать выводы.

Бывает сложно разобраться в таких случаях. Например, в медицинских исследованиях парадокс Симпсона может проявиться при оценке лекарства: в целом оно превосходит плацебо, но если разбить испытуемых на группы (например, по полу), то в каждой из групп плацебо окажется эффективнее.

Что тогда делать: разрешить выпуск лекарства или отказаться от него? Единого ответа нет. С научной точки зрения лучше провести дополнительные исследования: выяснить, как пол и другие факторы влияют на эффективность, и нет ли скрытых переменных.

Тщательный анализ — единственный способ понять, где заканчивается простая связь и начинается настоящая причина.