Найти тему
Никита Непряхин

Не все собаки кусаются

Представьте ситуацию, в которой ваш коллега говорит вам ➡ «Моя собака постоянно кусает прохожих, поэтому все собаки опасны для окружающих».

Ваш эмпирический опыт позволяет понять, что это не так. Не все собаки кусаются.

Но как же мы понимаем, что этого примера недостаточно? И какая же выборка будет достаточной? Сколько собак нужно привести в пример, чтобы сделать вывод, что все собаки кусают прохожих?

Хочу обратить ваше внимание на исходную формулировку в примере.

Давайте сравним посылки

Моя собака постоянно кусает прохожих.

Некоторые собаки постоянно кусают прохожих.

Большинство собак постоянно кусают прохожих.

Все собаки постоянно кусают прохожих.

Могут, как вы понимаете, отличаться и выводы в умозаключении

Моя собака опасна для окружающих.

Некоторые собаки опасны для окружающих.

Большинство собак опасны для окружающих.

Все собаки опасны для окружающих.

Обратили внимание на слова-уточнения?

«Некоторые», «большинство», «все» — от наличия или отсутствия этих слов принципиально меняется вывод умозаключения. Если я скажу, что моя собака кусает людей, то заключение в виде «моя собака опасна для окружающих» будет корректным. Однако оно вовсе не будет доказывать, что «большинство» собак или «все» собаки опасны.

Так как же понять это мерило истинности? Сколько собак нужно привести в пример, чтобы не говорить о тенденциозности вывода?

Итак, предмет исследования называется выборкой. А все те (все то), о ком или о чем надо сделать вывод, именуются генеральной совокупностью. Все прекрасно понимают, что если мы будем брать не первые случайные объекты из генеральной совокупности или какие-то специальные объекты, то все наше заключение о генеральной совокупности будет неверным.

В этом плане очень показательным будет другой пример. Представим ситуацию ➡ я опрашиваю посетителей бара, как они относятся к алкоголю. 100% респондентов ответили: «Крайне позитивно». Вас ничто не смущает? Все дело в том, что я провел опрос там, где априори к алкоголю относятся хорошо, ведь это бар. Такая выборка будет называться смещенной. Как вы думаете, какие будут результаты, если точно такой же опрос я сделаю в библиотеке или в Обществе анонимных алкоголиков? Важно, чтобы выборка проводилась среди правильного и необходимого числа людей.

Существует 3️⃣ основных правила корректной выборки.

1️⃣ ВЫБОРКА ДОЛЖНА БЫТЬ БОЛЬШОЙ

Чем больше объем выборки, тем надежнее она представляет генеральную совокупность и тем более правдоподобным будет наше заключение.

2️⃣ ВЫБОРКА ДОЛЖНА БЫТЬ РАЗНООБРАЗНОЙ И РЕПРЕЗЕНТАТИВНОЙ

Если перед нами задача узнать, как все граждане страны относятся к алкоголю, тогда надо опрашивать не только людей в барах. Надо узнать, на какие категории делятся жители нашей страны (например, по гендеру, возрасту, профессии, уровню достатка, образованию); понять, в каких они пропорциях представлены (кого больше: мужчин или женщин, подростков или пенсионеров), и проводить выборку точно в таких же пропорциях — то есть выборка должна репрезентировать генеральную совокупность в тех же категориях и пропорциях.

3️⃣ ВЫБОРКА ДОЛЖНА БЫТЬ СЛУЧАЙНОЙ

Люди из генеральной совокупности должны быть выбраны случайным, рандомизированным способом. Это позволит нам избежать смещения выборки, предвзятости и когнитивных искажений, которым подвержены и сами исследователи.

Кроме того, необходимо учитывать, как формулируются вопросы для исследования. Несложно догадаться, что, если вы будете спрашивать людей на улице, часто ли они совершают административные правонарушения, ответы никак не покажут реального положения дел, поэтому всегда надо учитывать, какие ответы являются социально ожидаемыми или социально одобряемыми.

Также по самой формулировке вопросы ни в коем случае не должны быть наводящими.

Сравните два вопроса

Хотите ли вы принимать БАДы, чтобы улучшить состояние своего здоровья?

Хотите ли вы принимать БАДы?

Вы заметили, что первый вопрос может дать большее количество положительных ответов, поскольку он как бы подталкивает людей к однозначному ответу?

Вот еще хороший пример. Кстати, обожаю эту шутку

У мужчин деревни Вилларибо длина члена 15 см, а в Виллабаджо - 25. Потому что в Вилларибо делали замеры, а в Виллабаджо проводили опрос.

Значимость статистических данных определяется среди прочего таким понятием, как допустимая погрешность. Так как исследуемая выборка всегда меньше генеральной совокупности, результаты могут не до конца отражать реальность, то есть содержать определенную погрешность.

В статистике для каждого исследования фиксируют свою допустимую погрешность. Например, вы читаете исследование, в котором говорится, что 6️⃣8️⃣% россиян поддерживают закон о запрете рекламы алкоголя, а допустимая погрешность — 3️⃣%. Это означает, что правдивый уровень поддержки этого закона будет колебаться между 6️⃣4️⃣ и 7️⃣1️⃣%.

При оценке весомости посылок всегда смотрите на выборку и допустимую погрешность: при малой выборке и большой допустимой погрешности результаты исследования могут очень сильно отличаться от реальности.

Статья написана Никитой Непряхиным на основе материалов его книги «Анатомия заблуждений. Большая книга по критическому мышлению», издательство «Альпина Паблишер».

Подписывайтесь на Telegram-канал Никиты Непряхина.