Добавить в корзинуПозвонить
Найти в Дзене
CatUniverse

Как нам всех пересчитать? О репрезентативной выборке

Ну чё, котаны, немножко социологии на Ньюсе? Опросы общественного мнения — штука непростая. Они служат механизмом обратной связи от населения, будь-то политические предпочтения или качество удовлетворенности услугами. Но как создаются опросы, какие цели могут преследовать составители, с помощью каких хитрых математических формул социологи добиваются своего и какие есть подводные камни? Давайте попробуем разобраться вместе в цикле, посвященном так называемой репрезентативной выборке, правильное создание которой обычно является целью социологов. В первой части обсудим, почему опрос 10 миллионов человек нередко может оказаться гораздо менее точным, чем опрос всего лишь трёх тысяч. И всё это на живом историческом примере! Представьте себе, что перед вами стоит задача охарактеризовать некую огромную величину — возможно, даже стремящуюся к бесконечности. Если вы подумали, что это абстрактная задачка из учебника по математике, то ошибаетесь. Подобный вопрос может встать и перед гуманитарием,
Оглавление

Ну чё, котаны, немножко социологии на Ньюсе?

Опросы общественного мнения — штука непростая. Они служат механизмом обратной связи от населения, будь-то политические предпочтения или качество удовлетворенности услугами. Но как создаются опросы, какие цели могут преследовать составители, с помощью каких хитрых математических формул социологи добиваются своего и какие есть подводные камни?

Давайте попробуем разобраться вместе в цикле, посвященном так называемой репрезентативной выборке, правильное создание которой обычно является целью социологов. В первой части обсудим, почему опрос 10 миллионов человек нередко может оказаться гораздо менее точным, чем опрос всего лишь трёх тысяч. И всё это на живом историческом примере!

Представьте себе, что перед вами стоит задача охарактеризовать некую огромную величину — возможно, даже стремящуюся к бесконечности. Если вы подумали, что это абстрактная задачка из учебника по математике, то ошибаетесь. Подобный вопрос может встать и перед гуманитарием, например, перед начинающим социологом: «Сколько людей нужно опросить, чтобы составить портрет общественного мнения в целом?»

А социологи отвечают:

Минимальный из обычно используемых объемов выборки n в маркетинговых или социологических исследованиях - 100, максимальный - до 5000 (обычно в исследованиях, охватывающих ряд регионов страны, т.е. фактически разбивающихся на ряд отдельных исследований - как в ряде исследований ВЦИОМ). По данным Института социологии Российской академии наук [5], среднее число анкет в социологическом исследовании не превышает 700.

Проще говоря, мы можем судить о гражданах целой страны на примере ничтожного числа опрошенных. Узнать мнения десятков миллионов, опросив лишь пару тысяч.

Доверяете ли вы социологам? Если нет, то правильно делаете. Как говорится, доверяй, но проверяй. Вот мы с вами сейчас их и проверим…

Введение: Литературное обозрение против Института Гэллапа

Франклин Делано Рузвельт. В глазах читается усталость от выпавших на его долю проблем.
Франклин Делано Рузвельт. В глазах читается усталость от выпавших на его долю проблем.

В начале ноября 1936 года в США должны были состояться очередные президентские выборы. К этому моменту президент-демократ Франклин Рузвельт вполне успешно разгребал последствия Великой депрессии. За первые четыре года он сильно перекроил американскую экономику, создав бессчетное число министерств, которые ведали регулированием практически всех экономических показателей — от финансов и цен до трудоустройства, образования и социального обеспечения.

Столь стремительные реформы обычно вызывают недовольство в самых разных слоях общества. Бизнес и банкиры роптали из-за ужесточения регулирования; простые американцы опасались превращения страны в «коммунистические» или «фашистские» штаты (в зависимости от политических взглядов); а некоторые экономисты считали, что нововведения только тормозят восстановление экономики. В такой напряжённой обстановке Рузвельт баллотировался на второй срок.

Уже в те годы в США были популярны неофициальные опросы общественного мнения. С начала XX века многие крупные журналы проводили собственные исследования, пытаясь предсказать имя следующего президента. Одно из самых авторитетных изданий того времени, журнал «Литературное обозрение», опубликовало результаты сплошного опроса общественного мнения за день до выборов. В конце лета редакция разослала 10 миллионов анкет, получила ответы от более чем двух миллионов избирателей и обрабатывала их вплоть до конца октября (с.3). Согласно этим данным, победу прочили кандидату от Республиканской партии Альфреду Лэндону, оппоненту Рузвельта. Предполагалось, что Лэндон наберёт 50–57% (в разных источниках цифры разнятся), а Рузвельт — всего 41%.

Альфред Моссман Лэндон. В глазах читается ребяческий задор и решимость победы на выборах.
Альфред Моссман Лэндон. В глазах читается ребяческий задор и решимость победы на выборах.

Мнения экспертов относительно исхода выборов разделились. Другие исследования общественного мнения сулили победу Рузвельту, но на стороне «Литературного обозрения» была мощная статистика: журнал опросил рекордное количество человек, намного больше, чем любой из конкурентов. К тому же издание всегда верно предсказывало победителя, в том числе и победу самого Рузвельта четырьмя годами ранее. Однако на выборах 1936 года «Литературное обозрение» провалилось с треском. За Рузвельта проголосовало 60–62% избирателей, а за Лэндона — лишь 30–38%. Можно было бы предположить, что за лето и осень предпочтения электората просто изменились, а данные устарели. Если бы не одно «но».

Американский социолог Джордж Гэллап провёл собственное исследование. С точностью до процента он сумел указать, насколько сильно ошибётся в своих прогнозах «Литературное обозрение» (с.10). Для этого ему потребовалось опросить всего лишь… три тысячи человек. Затем он корректно предсказал победу Рузвельта с отклонением всего в 4–6%, что было гораздо точнее прочих опросов. Примечательно, что вместо двух миллионов анкет Гэллапу понадобилось лишь пятьдесят тысяч — в сорок раз меньше (с.353).

Доля голосов за Рузвельта в реальности, прогноз «Обозрения», а также прогнозы Гэллапа относительно прогноза «Обозрения» и доли голосов за Рузвельта.
Доля голосов за Рузвельта в реальности, прогноз «Обозрения», а также прогнозы Гэллапа относительно прогноза «Обозрения» и доли голосов за Рузвельта.

Не выдержав позора, «Литературное обозрение» прекратило существование уже в 1938 году, а Институт Гэллапа приобрёл общенациональную славу и работает по сей день. Этот курьёзный случай дал мощный толчок развитию не только американской, но и мировой статистики. Как же так вышло, что Гэллапу удалось верно предсказать результат выборов, оперируя в разы меньшим объёмом данных?

Основы статистики в схемах и мемах

Самое время вспомнить (или узнать), как работает статистика применительно к нашей теме. Постараемся обойтись без сложной математики — за исключением тех случаев, когда без неё совсем никуда.

Зачем нужна репрезентативная выборка?

В статистике полный набор исследуемых объектов, объединённых общими признаками, называется генеральной совокупностью. Её определение — отправная точка любого социологического, маркетингового или иного статистического исследования. А что считать общим признаком? Тут всё на воле исследователя.

-5

Например, вы поставили задачу проанализировать посетителей сайта, жителей города или работников фабрики. Тогда генеральной совокупностью в вашем анализе будут соответственно посетители сайта, жители города или работники фабрики. Степень детализации вы тоже вольны определять самостоятельно. Допустим, нужно разузнать о конкретной фабрике в конкретном городе, чьи работники (именно работники, а не работницы!) определённого возраста покупали шоколад конкретной марки на таком-то сайте. В этом случае генеральной совокупностью выступят именно эти люди, объединённые сразу несколькими признаками.

Исследователей часто волнуют вопросы глобального масштаба. Что избиратели думают о том или ином кандидате? Как курение влияет на здоровье человека? Что известно о жизненном цикле звёзд третьего класса светимости? В первом случае генеральной совокупностью будет население страны старше 18 лет, во втором — все курящие люди на Земле, а в третьем — все звёзды третьего класса светимости во Вселенной. Изучить всю генеральную совокупность в таких примерах либо экономически неоправданно, либо технически невозможно.

Именно для этого и нужна выборка — да не простая, а репрезентативная. Репрезентативная выборка — это уменьшенная копия генеральной совокупности. Если говорить строже, она должна отражать ключевые характеристики генеральной совокупности с минимальной погрешностью. Короче говоря, достоверно представлять интересующую нас группу.

Пример генеральной совокупности и репрезентативной выборки с пылу с жару!
Пример генеральной совокупности и репрезентативной выборки с пылу с жару!

Почему размер не имеет значения?

Математическая статистика часто приводит к выводам, противоречащим нашей интуиции. Мой опыт показывает: люди склонны думать, будто точность опроса напрямую зависит от размера выборки. Иными словами, чем большая доля генеральной совокупности попала в выборку, тем она репрезентативнее. И это верно, но есть важный нюанс.

К доверительным уровням и прочим формулам мы перейдем позже. Сейчас стоит обратить внимание на то, как меняется ошибка выборки (разброс результата) с ростом её объёма.
К доверительным уровням и прочим формулам мы перейдем позже. Сейчас стоит обратить внимание на то, как меняется ошибка выборки (разброс результата) с ростом её объёма.

С ростом объёма выборки погрешность действительно снижается. Однако чем больше становится выборка, тем меньше выигрыш в точности. Очень скоро мы обнаружим, что каждое следующее увеличение выборки повышает точность на жалкие доли процента. Если в нашем примере мы захотим увеличить выборку вдвое — скажем, с 750 до 1500 единиц, — это снизит погрешность с 3,5% до 2,5%. Иначе говоря, приложив на 100% больше усилий (увеличив выборку вдвое), мы улучшим точность всего на 30% (сократив ошибку на один процентный пункт). В целом, увеличив выборку с 50 человек до 1500 человек, мы получим снижение ошибки в 5,6 раз, но сама выборка при этом вырастет в 30 раз. Прирост размера выборки не ведёт к пропорциональному снижению ошибки! А если совсем точно: чтобы повысить точность вдвое, выборку нужно увеличить в четыре раза. Как вам такое?

Именно поэтому статистики готовы пожертвовать полнотой охвата генеральной совокупности. Она попросту не нужна для получения репрезентативного результата. Более того: чем больше сама генеральная совокупность, тем меньшую долю от неё будет составлять необходимая выборка. В какой-то момент точный размер генеральной совокупности даже перестаёт быть обязательным условием. Выборка, скажем, в 27 тысяч человек будет репрезентативной (с поправкой на адекватно заданные «уровень надёжности» и «допустимую погрешность») для генеральной совокупности хоть в 100 миллионов, хоть в 1 миллиард, хоть в бесконечность.

Размер выборки (n) и генеральная совокупность (N) в зависимости от погрешности исследования.
Размер выборки (n) и генеральная совокупность (N) в зависимости от погрешности исследования.

Короче говоря: размер выборки играет тем меньшую роль, чем больше размер всей совокупности. Если же генеральная совокупность бесконечна, то и необходимый объём выборки стремится к нулевой доле от неё. Объём выборки никогда не рассчитывается как доля от генеральной совокупности. На него влияют совсем другие параметры.

Так и от чего зависит размер выборки?

Размер выборки определяется уровнем надёжности, допустимой погрешностью и ещё парой-тройкой нюансов, речь о которых пойдёт в следующей части. Давайте пока начнём с азов.

Уровень надёжности показывает, насколько мы уверены в репрезентативности полученных данных. В большинстве онлайн-калькуляторов выборки по умолчанию стоит уровень 95–97% — он считается оптимальным для добротного исследования.

Допустимая погрешность (предельная ошибка выборки) указывает, насколько истинное значение может отклоняться от того, что показала наша выборка. Приемлемой обычно считается погрешность не более 5%.

Что всё это означает на практике? Допустим, мы решили добиться максимальной точности и задали уровень надёжности 99%, а допустимую погрешность — 1%. Это значит, что в 99 случаях из 100 результат попадёт в доверительный интервал с отклонением не более 1%.

Представьте: мы хотим выяснить, какой процент населения планеты Плюк читает паблик CatTech. Выставив минимальную погрешность и максимальный уровень надёжности, мы желаем быть уверенными: по крайней мере 99 из каждой сотни опрошенных, предпочитающих CatTech, действительно окажутся его читателями — с погрешностью не выше 1%.

Планета Плюк в нашем варианте.
Планета Плюк в нашем варианте.

В нашем случае неизвестен ни объём генеральной совокупности (сколько всего существ населяет Плюк), ни доля искомого признака (сколько из них читает CatTech). Но спутниковые снимки подсказывают, что население планеты довольно крупное и явно превышает 100 000 существ. Размер выборки можно вычислить по следующей формуле (для простой случайной выборки):

-10

Z — коэффициент, переводящий желаемый уровень надёжности в математическую величину. Для 99% он равен 2,58. Откуда это число? Если взять нормальное распределение (знаменитый «колокол Гаусса») и отложить от среднего по 2,58 стандартных отклонения влево и вправо, площадь под кривой внутри этого интервала составит ровно 99% от всей площади. Давайте не будем лезть в такие дебри, а просто доверимся таблицам или онлайн-калькулятору выборок.

p – доля респондентов с наличием исследуемого признака.

q = 1 - p – доля респондентов, у которых исследуемый признак отсутствует. Значения p и q обычно принимаются за 0,5 (вероятность 50%, либо он есть, либо его нет), поскольку точно неизвестны до проведения исследования. При этом значении размер ошибки выборки (погрешности) максимален.

Δ– предельная ошибка выборки (для доли признака), приемлемая для исследователя. В нашем случае, это 0,01, так как погрешность задана на уровне 1%.

n – объем выборки.

Подставим числа:

Z² = 2,58 × 2,58 ≈ 6,65
p × q = 0,5 × 0,5 = 0,25
Z² × p × q = 6,65 × 0,25 ≈ 1,66
Δ² = 0,01 × 0,01 = 0,0001

n = 1,66 / 0,0001 = 16 600 существ.

Это означает: при заданных нами условиях потребуется опросить 16 600 случайно отобранных плюковчан, чтобы выборка была репрезентативной. При этом неважно, живёт на планете 100 тысяч, 150 тысяч или полтора миллиона существ. Мы можем быть уверены, что в 99 случаях из 100 результат попадёт в доверительный интервал с погрешностью не более 1%. Иными словами, с вероятностью 99% доля читателей на Плюке будет установлена с точностью +/- 1% даже для распределения 50/50.

Социологический опрос на планете Плюк.
Социологический опрос на планете Плюк.

Как правило, опросы проводятся в два захода. Допустим, мы тоже решили «попробовать перо» и отправили на планету десант социологов. Они опросили всего тысячу существ и выяснили, что паблик CatTech читают 10% респондентов. У нас появилась конкретная доля признака! Но можно ли распространить этот результат на всю генеральную совокупность?

Теперь мы можем подставить в формулу новые значения: p = 0, 1 (10% читающих), q = 0,9 (90% не читающих).

Z² = 6,65
p × q = 0,1 × 0,9 = 0,09
Z² × p × q = 6,65 × 0,09 ≈ 0,59
Δ² = 0,0001

n = 0,59 / 0,0001 = 5 900 существ.

Вуаля! Знание доли признака в выборке позволяет сократить необходимое число опрошенных — причём тем сильнее, чем дальше эта доля от 50%. Проверьте сами, подставив, например, p = 0,44 и q = 0,56.

Однако наш расчёт показал: выборка в тысячу существ слишком мала, чтобы соответствовать желаемому уровню погрешности. Мы даже можем вычислить, насколько именно по формуле:

-12

Z = 2,58
p × q = 0,09
n = 1 000
√(0,09 / 1000) ≈ 0,0094868
2,58 × 0,0094868 ≈ 0,02448, то есть
2,44% .

Погрешность менее 3% вполне приемлема для большинства социологических исследований. Это значит, что с вероятностью 99% доля читателей CatTech на Плюке лежит в пределах от 7,56% до 12,44% (отклонение от измеренных 10%). Но если мы хотим погрешность не более 1%, придётся увеличить выборку до 5 900 существ — как мы уже выяснили. Можете подставить 5 900 вместо 1 000 в формулу выше и убедиться сами! Теперь можно провести второй опрос с адекватным для наших условий размером выборки.

Обратите внимание: в формулах нигде не фигурирует объём генеральной совокупности. Мы оперируем объектами, чья общая численность нам даже неизвестна, — и при этом получаем репрезентативные данные. Однако если генеральная совокупность сравнительно невелика (до 100 000 единиц), потребуются другие формулы — например, с поправкой на конечную совокупность.

N=число генеральной совокупности.
N=число генеральной совокупности.

Но подробно останавливаться на этом пока не будем: на практике простая случайная выборка, о которой шла речь, в социологии применяется довольно редко.

Заключение

Кстати, а что там с Гэллапом и «Литературным обозрением»? Напомню: Гэллап сумел верно предсказать ошибочность прогноза журнала, а затем, уже после победы Рузвельта, весной 1937 года запустил собственный опрос. Среди прочего он поинтересовался, есть ли у респондента автомобиль и/или телефон.

-14

Джордж Гэллап знал методику «Литературного обозрения». Журнал рассылал анкеты людям, чьи адреса брал из справочников зарегистрированных автомобилей и телефонных книг, а также собственным подписчикам. Однако в те годы в США владельцев домашних телефонов и автомобилей было сравнительно немного. Это были зажиточные ребята — представители среднего класса и предприниматели, которые в массе своей меньше склонялись к поддержке Рузвельта и к тому же часто являлись подписчиками журнала. Выборка «Литературного обозрения» оказалась нерепрезентативной: она не отражала генеральную совокупность американских избирателей, полностью упустив из виду более бедные слои населения (с.353).

Впрочем, если разобраться в деталях, опрос показал, что даже среди владельцев авто и телефонов Рузвельт имел небольшой перевес. Дополнительным источником искажения стало то, что сторонники Рузвельта реже возвращали заполненные анкеты. Современные исследования демонстрируют: приблизительный вклад неудачной выборки в ошибку составил около 11%, а ещё примерно 7% пришлось на искажение из-за невозврата анкет (с.6-7).

Процент голосов за Рузвельта, Лэндона, либо других кандидатов среди владельцев телефонов и/или автомобиля, и тех, у кого не было ни того, ни другого. N=общее количество опрошенных.

Вне зависимости от истинной причины провала «Обозрения», этот исторический курьёз учит важному, хотя уже банальному для нас правилу: маленькая, но репрезентативная выборка лучше, чем большая, но нерепрезентативная.

В следующей части, через пару часов, мы поговорим о том, как создаётся репрезентативная выборка и какие ещё виды вероятностных выборок применяются на практике. А также узнаем, почему размер выборки всё-таки имеет значение…

Автор: Фёдор Яковлев и CatNews