ини крах методики Гэллопа
В прошлой части мы узнали о том, какие существуют виды вероятностных выборок, что это вообще такое и зачем выборку порою просто необходимо увеличивать. А начало цикла про соцопросы тут:
В заключительной части сегодня мы узнаем, что же такое невероятностные выборки, почему их использовал американский социолог Джордж Гэллап и как они опозорили его на всю страну. И, конечно же, поднимем щепетильный вопрос о к̶л̶а̶с̶с̶о̶в̶ы̶х̶ ̶и̶н̶т̶е̶р̶е̶с̶а̶х̶ социальных причинах искажений опросов общественного мнения.
Пришла пора закругляться. Чем же закончилась история с Гэллапом и почему многие опросы до сих пор нередко ошибаются? Об этом поговорим в заключительной части.
Введение: опросы против Гарри Трумэна
Уже знакомый нам президент-демократ Франклин Рузвельт известен в истории США как президент с самым длинным сроком пребывания у власти. Он пробыл в президентской должности 4422 дня, скончавшись на четвёртом сроке подряд 12 апреля 1945 года.
До конца срока за него рулить страной остался вице-президент Гарри Трумэн. На его долю выпали завершение Второй мировой войны, выбор курса в отношении СССР в послевоенном мире и окончательный отход внешней политики США от принципов изоляционизма. Холодная война на дворе, как-никак. Во внутренней политике Трумэн решал вопросы демобилизации, возвращения экономики в гражданское русло и расовой сегрегации.
Если на момент капитуляции Японии рейтинг Трумэна был высок как никогда, то послевоенная инфляция, расширение прав черных и, как следствие, раскол внутри демократической партии привели к заметному снижению популярности. Все опросы общественного мнения прочили ему поражение на выборах 1948 года. Среди скептиков был и Джордж Гэллап. Он предсказывал Трумэну 44,5% голосов, тогда как его основному оппоненту — Томасу Дьюи, — 49,5%. Гэллап корректно предсказал проценты, но будто бы перепутал местами кандидатов. В реальности Трумэн получил 49,6%, а Дьюи — 45,1%.
Единогласный скепсис опросов общественного мнения приводил к курьёзам: незадолго до оглашения результатов выборов некоторые газеты уже напечатали заголовки, провозглашающие победу оппонента-республиканца. Один из таких моментов запечатлён на исторической фотографии, где Трумэн победоносно улыбается, развернув первую полосу газеты Chicago Daily Tribune.
Трумэн победил с относительно небольшим перевесом, да и Гэллап оказался не так уж далёк от истины. И всё-таки он, как и многие другие исследователи, провалился. Что же пошло не так?
Больше выборок Богу выборок!
В предыдущей серии мы сосредоточились на математике и связанных с нею искажениях, основанных на вероятностных выборках. Но раз существует лесобаза, значит, есть и лесокринж вероятностная выборка — должна быть и невероятностная.
Что за невероятностные выборки?
Как мы помним, вероятностные выборки считаются наиболее репрезентативными в силу случайности отбора. Если вы правильно составили список генеральной совокупности — можно сказать, дело в шляпе. Но бывают ситуации, когда составить такой список принципиально невозможно, а репрезентативность и вовсе не нужна. Тогда на помощь приходят невероятностные выборки, которые к тому же гораздо дешевле в реализации. Таких выборок существует несколько, иногда они комбинируются.
- Удобная выборка — производится из наиболее доступных респондентов. Хотите узнать, что люди думают о качестве хлеба в продуктовых магазинах? Закиньте интервьюеров в людное место — например, ко входу в торговый центр, — и пусть опрашивают вошедших, пока не наберут заданное число человек. Достоинства: простота и дешевизна исследования.
Удобную выборку используют в лучшем случае для пилотных исследований, когда нужно проверить качество составленной анкеты и корректность работы интервьюера. Но чаще всего такая выборка применяется студентами-социологами в рамках учебной практики по сбору и обработке статистики. О минусах этой и нижеперечисленных выборок поговорим позже.
- Квотная выборка — вы задаёте доли (квоты) выборки так, чтобы её пропорция примерно соответствовала пропорции генеральной совокупности по интересующим признакам. Например, нам важна половая принадлежность покупателей бритвенных станков. Известно, что доля женщин в населении города составляет 44%. Определив выборку, скажем, в 1000 человек, мы устанавливаем в ней квоту на 440 женщин. В отличие от стратифицированной выборки, где тоже учтены интересующие исследователя слои населения, в квотной выборке отбор респондентов отдаётся на откуп интервьюеру, а не генератору случайных чисел. Достоинства: более высокая репрезентативность по сравнению с предыдущей выборкой. Интервьюер формирует выборку не из первых встречных, а так, чтобы в неё вошли 440 женщин.
Именно этим типом выборки Гэллап сразил журнал «Литературное обозрение», повлияв на её популярность в дальнейшем. И именно она использовалась во всех упомянутых выше опросах общественного мнения (с.355) при прогнозе исхода выборов 1948 года. Данная выборка применяется и сегодня — например, в маркетинговых исследованиях.
- Целевая выборка — вы отбираете людей по строго определённому признаку, целенаправленно формируя малочисленную группу респондентов, отвечающих задаче исследования. Например, требуется узнать, что думают «наиболее профессиональные» хирурги о влиянии зарубежных санкций на доступность хирургического оборудования. Взяв за критерий профессионализма уровень заработной платы, исследователь находит в открытых базах данных наиболее высокооплачиваемых хирургов и ищет с ними встречи для беседы. Или другой пример: исследователь изучает учителей «типичных школ», чтобы на их примере проиллюстрировать проблемы массового образования. Выделив критерии «типичности» (скажем, бюджетное муниципальное учреждение в городе с населением менее миллиона человек), он отправляется на поиски работающих там педагогов.
Целевая выборка незаменима, если в приоритете — «красочность» иллюстрации изучаемой проблемы и авторитетность опрошенных. Например, именно этот тип выборки использовался при проведении опроса американских экономистов на тему эффективности предпринятых правительством мер во время кризиса 2008 года, о чём я писал здесь.
- Выборка методом «снежного кома» — вы наращиваете объём выборки прямо в процессе её проведения. Опросив искомого человека, вы просите его порекомендовать контакты других таких же людей. Опросив рекомендованных респондентов, спрашиваете у них новые контакты и повторяете процесс, набирая выборку «снежным комом».
Такая выборка необходима, если нет возможности получить хоть сколько-нибудь достоверный список генеральной совокупности по узкому признаку. А как ещё отыскать для опроса, скажем, проституток и сутенёров, если не спрашивать их коллег? А может быть, даже привлечь их самих к опросам? Именно так поступил социолог Судхир Венкатеш, когда исследовал рынок проституции в Чикаго (с.14), о результатах исследования которого я писал здесь.
- Добровольная выборка — проще простого. Сообщите респондентам, например в соцсетях, что вы очень хотите услышать их мнение по тому или иному вопросу. Оставьте ссылку на опросник и ожидайте результатов. Похожие выборки устраивал и я в рамках тематических недель для повышения интерактивности процесса. Достоинства: максимальная дешевизна и быстрота. Организация опросов в соцсетях делается бесплатно, для них даже не нужно платить лишние копейки студентам-интервьюерам, а быстро интерпретировать полученный результат можно самостоятельно.
Если где-либо вы сталкивались с ненавязчивым приглашением пройти опрос (уверен, такое было не раз), значит, вы натыкались на исследование, основанное на добровольной выборке.
Наиболее догадливые уже могут выделить общую проблему всех перечисленных выборок. Давайте поговорим об этом подробнее, чтобы понять, где же оплошал Гэллап.
А в чём проблема, офицер?
Во второй части мы неспроста уделили время пониманию случайности, которую можно обеспечить с помощью генератора псевдослучайных чисел. В первой половине прошлого века это понимали далеко не все социологи, да и не было у них развитой вычислительной техники для создания дешёвой и качественной рандомизации. Случайность расценивалась скорее как случайность отбора респондентов интервьюерами на местах. И действительно, ни исследователь, ни интервьюер заранее не знают, кого именно они будут опрашивать (за исключением целевой выборки). Однако это — негодное понимание случайности для проведения опросов. Если вы не видите какой-либо закономерности, это не значит, что её нет.
Например, в случае удобной выборки интервьюер опрашивает не полностью случайных людей, а только тех, кто оказался в нужное время в нужном месте. Если опрос проводится в торговом центре в разгар буднего дня, то в выборку попадут те, кто может позволить себе поход по магазинам в рабочее время. Целевая выборка позволяет узнать мнение лишь узкого, вероятно, предвзятого круга лиц, которые вдобавок могут работать в одних и тех же городах — вспомним пример с хирургами. Добровольная выборка отобразит только высокомотивированных людей, которым не лень потратить время на опрос. А выборка «снежного кома» укажет лишь на наиболее «социальных» представителей искомой группы с большим количеством контактов для рекомендаций — причём их круг почти всегда замыкается сам на себе.
Квотная выборка учитывает эти проблемы, но лишь частично. Мы можем потребовать от интервьюера соблюдать квоты по определённым респондентам, но не в силах учесть его психологию. Будет ли он опрашивать всех встречных женщин нужного возраста или только физически привлекательных? Не испугается ли собаки у респондента? Не лень ли ему будет проехать в отдалённый район города, чтобы опросить людей там? Нет ли у него неосознанной антипатии к представителям другой нации или людям определённой профессии? Как избежать искажения при интерпретации ответов? Влияет ли поведение и внешний вид интервьюера на ответы респондентов? Все эти вопросы поднимаются в концепции «эффекта интервьюера», которая гласит: чрезмерная самостоятельность интервьюеров в отборе выборки искажает результат опроса (с.10-11).
Это не значит, что невероятностные выборки бесполезны. Если вы преследуете иные задачи — как в случае с целевой выборкой, — репрезентативность вам и не нужна. Но невозможность расчёта ошибки выборки вкупе с эффектом интервьюера серьёзно ограничивает их применимость с точки зрения репрезентации генеральной совокупности, и об этом важно помнить.
Взлёт, падение и искупление Джорджа Гэллапа
Ни один подвиг не станет таковым без агрессивного пиара. Сколь бы значительным ни было деяние, никто не оценит его по достоинству, если о нём не рассказать в красках. Этот принцип хорошо понимают пиарщики и пропагандисты — не обязательно в плохом смысле слова. Короче говоря:
Понимал это и Джордж Гэллап. Разгромив журнал «Литературное обозрение», он ярко и убедительно доказал силу метода выборочных опросов. Но триумф следовало закрепить в медийном поле. Гэллап много раз заявлял, что эра так называемых «соломенных опросов» ушла в прошлое, а будущее — за опросами «научными», под которыми он понимал выборочный метод, в том числе и свой собственный (с.3, с.8-10). Помимо риторически резкого разделения опросов на «научные» и «донаучные», он также указывал на силу рандомизации выборки в «научных» опросах — хотя сам, как мы уже поняли, её не использовал. Зато этот приём позволил создать ассоциацию случайной выборки с квотной (там же, с.11).
Пиар-кампания оказалась эффективной. Опросы Гэллапа стали нарицательным обозначением качественного опроса, а его фамилию в 1940-е годы узнали даже в Европе. Как отмечал один из американских социологов в 1949 году:
Я только что вернулся из Европы, где провел две недели в Норвегии и Швеции в период выборов. Меня там все спрашивали: «У вас есть свой собственный „Гэллап“?», «Был ли „Гэллап“ Кроссли лучше, чем „Гэллап“ Ропера?». Я пытался понять, что они подразумевают под «„Гэллапом“ Кроссли», и потом выяснил, что их понимание слова «Гэллап» — это американское слово, обозначающее «опросы».
Не все специалисты разделяли точку зрения, будто квотная выборка Гэллапа была наиболее точной и научной. Параллельно в Бюро переписи США работали те, кто предпочитал вероятностные выборки (с.9-10). Было известно, что выборка Гэллапа тоже страдала от серьёзных искажений результата (с.5, с.13). Но кого это волновало, если результат «в целом» предсказывался корректно, а вероятностные выборки существенно дороже в реализации?
После триумфа Трумэна и поражения сразу нескольких опросных организаций по горячим следам была созвана целая конференция статистиков, устроивших разбор полётов. Среди ошибок указывались:
- Опросы завершились слишком рано — за месяц до выборов. В это время Трумэн активно активно колесил по стране на поезде, выступая с речами перед электоратом, что позволило ему набрать ещё 2–3 % голосов.
- Квотная выборка привела к опросу более зажиточных и образованных лиц — даже несмотря на квоты по доходным группам. Вероятно, интервьюеры старались не связываться с неграми, поскольку те жили в криминальных кварталах и сами нередко были связаны с криминалом (с.15). А ведь именно на чернокожих и делал ставку Трумэн.
- Опросы предполагали, что неопределившиеся на момент проведения опроса избиратели распределятся так же, как и уже определившиеся. Однако Трумэн успел консолидировать свою партию за счёт оставшихся сторонников и завоевать доверие избирателей своими речами. В результате многие неопределившиеся всё-таки проголосовали за него.
- У социологов не было точного способа определить, кто останется дома в день выборов, а кто пойдёт и проголосует.
- Позднее утверждалось, что при составлении выборки Гэллап использовал устаревшие данные о распределении населения, взятые из Бюро переписи США восьмилетней давности. За это время изменилась пропорция городских и сельских жителей, причём горожане чаще голосовали за Трумэна, но в квоту Гэллапа попало больше сельских жителей (с.152).
Большинства перечисленных проблем можно было избежать, отнесись социологи к делу чуть более ответственно. Но на конференции заострили особое внимание на квотной выборке, рекомендовав поскорее отказаться от неё и перейти на вероятностные методы (с.16), поскольку учесть эффект интервьюера в ней очень тяжело. Один из социологов позднее утверждал:
С тех пор практически все опросы общественного мнения в США – будь то личные беседы или телефонные опросы – использовали модифицированную версию вероятностной (или случайной) выборки. Действительно, для американских исследователей квотная выборка – это почти ругательное слово.
Вскоре институты опросов общественного мнения начали массово отказываться от невероятностных выборок при составлении предвыборных прогнозов. Сам Гэллап перешёл к случайным методам опроса в начале 1950-х, что привело к снижению как объёма выборки, так и погрешности в предсказаниях. Это не спасло его от ошибок в дальнейшем, но теперь он мог честно сказать, что сделал почти всё от него зависящее.
Судьба Гэллапа сложилась хорошо. Несмотря на такой заметный промах, вес его организации в мире статистики не пошатнулся, и в дальнейшем его организация находилась на острие прогресса статистических методов. Основанный им институт ещё в 1947 году разрастается до международных масштабов. Сам Гэллап участвует в создании Американской ассоциации исследований общественного мнения, Совета по маркетинговым исследованиям и ряде других организаций. В 1958 он объединяет все разрозненные организации в Gallup Inc., который и существует до сих пор. Сохраняя поразительную работоспособность, он продолжал участвовать в делах организации и писать книги даже в глубокой старости, пока в 1984 году к нему в гости на швейцарскую дачу не пожаловал сердечный приступ и не оборвал его жизнь.
А в чём преимущество вероятностных выборок?
Плюсы вероятностных выборок неочевидны, ведь даже этот метод не спасает от ошибочных прогнозов. Ведь многое по-прежнему зависит от дизайна исследования: как формировался опросный список, корректно ли учтены весовые коэффициенты, обеспечен ли нужный уровень отклика. Как формулируются сами вопросы и задачи исследования, в конце концов!
Тем не менее, вероятностные выборки (и только они) позволяют минимизировать неточности с помощью математического аппарата. Так, чтобы сделать поправки на отсутствие ответов, существует огромный набор методов взвешивания, позволяющий корректно учесть малочисленную категорию респондентов в опросе. Только вероятностные выборки позволяют оценить размер ошибки выборки. Только они позволяют добиваться большей объективности исследования за счёт снижения самостоятельности интервьюера при опросе, математических поправок на эффект интервьюера при анализе опроса и тому подобного.
Ещё один нюанс состоит в том, что мы можем понять причину разницы между выборками. Иначе говоря, мы можем узнать, является ли эта разница статистически значимой или вызвана случайными колебаниями.
- Хотите узнать, является ли разница между суммами среднего чека покупателей в двух разных ТРЦ случайностью или закономерностью? Вам поможет критерий Стьюдента: он сравнивает значимость различий между двумя выборками. Если выборок три и более — используйте дисперсионный анализ.
Недостаток: требуется нормальное распределение в выборках, чтобы избежать смещения.
- Хотите узнать то же самое, но при условии, что разброс суммы чека в выборках неодинаков (в первой от 500 до 1500, во второй от 700 до 1200)? Используйте критерий Уэлча, — он учитывает разницу дисперсий. Годится для случаев, когда дисперсии в выборках различаются.
- Хотите узнать, является ли разница между результатами спортсменов случайностью или закономерностью? Присвойте спортсменам ранг по возрастанию на основании результатов соревнований, затем разделите их на две равные выборки, подсчитайте суммы рангов в каждой… короче говоря, используйте критерий Манна-Уитни. Годится для любого примера, где изначально нет численно выраженного результата.
Недостаток: в каждой выборке требуется не менее 3 значений признака, а совпадающие значения в рангах нежелательны, чтобы избежать смещения.
- Хотите узнать, насколько эффективен курс тренировок спортсменов при условии, что сравнивается одна и та же выборка в разный временной промежуток? Используйте критерий Уилкоксона. В отличие от предыдущего, он годится для сравнения одной и той же выборки с течением времени. Недостаток: пригоден для малых выборок до 25 единиц, чтобы избежать смещения.
- Хотите узнать, изменяется ли отношение сторонников политической партии к ней в зависимости от её действий? Вам поможет критерий Краскелла-Уоллиса, отделяющий случайные колебания результатов от закономерных. Годится для любого примера, где надо сравнить медианы нескольких выборок. Является обобщением двух предыдущих критериев.
- Хотите узнать, является ли случайным совпадением, что мужчины чаще пьют кофе, а женщины — чай? Используйте критерий согласия Пирсона: он показывает значимость разницы относительных показателей. Требует крупной выборки для наибольшей точности. Аналог для маленьких выборок — критерий Фишера.
- Хотите узнать, есть ли корреляция между выборками по двум разным параметрам (например, зависимость уровня дохода от возраста респондента)? Вам помогут критерий Спирмена и критерий Пирсона (в зависимости от линейности/нелинейности связи и числового выражения параметра). Именно эти значения часто приводятся в научных работах, нередко их пишут прямо на графиках.
Все эти критерии применимы и к невероятностным выборкам. Но вероятностные выборки позволяют распространить результат таких сравнений на всю генеральную совокупность. Это как бы «усиливает» значимость всех сравнительных вычислений, позволяет заранее уточнить выборку и не выбрасывать деньги на ветер.
И всё-таки продвинутая математика не спасает от смещений полностью, поскольку многие из этих смещений лежат в «социальной» плоскости. Если список генеральной совокупности составлен некорректно, математика едва ли спасёт исследование. Но это лишь верхушка айсберга. Пришла пора поговорить о тёмной стороне социальных опросов, когда в сложные математические формулы вмешивается неизмеримый параметр в виде политики…
Темная сторона соцопросов?
У Джорджа Гэллапа была мечта. Он считал, что опросы общественного мнения станут эффективным инструментом демократии (с.2-4). Хорошо составленный опрос позволит выразить общественное мнение на основании небольшой выборки, что сделает демократию «дешевле» с точки зрения финансовых затрат. Затем эти результаты направят политическому руководству, а оно скорректирует свою политику с учётом мнений масс.
Подобный взгляд отдаёт наивным идеализмом, но он был характерен не только для Гэллапа. Его истоки следует искать в представлении о демократии, которое известный экономист Йозеф Шумпетер называл «классической доктриной», о чём я подробно писал здесь. С точки зрения этой доктрины выборное руководство лишь обслуживает интересы рациональных избирателей, приумножая «общее благо» ради сохранения своей должности. Эта благолепная картина далека от реальности, чему я посвящал целую тематическую неделю на CatNews. (редактор обещает выложить её на Дзен)
История полна примеров, когда опросы общественного мнения из механизма обратной связи превращались в ещё один инструмент борьбы за власть политиков или репутацию фирмы, чем невольно становились и опросы Гэллапа (с.19-20).
Комедийный эталон, высмеивающий британскую политику. Мем смешной, а ситуация страшная…1:45
Механизм действия очень простой. Поместите в опрос честную, но намекающую формулировку в духе «Проголосуете ли вы за Василия Пупкина, подозреваемого фермером Павлом Петровичем в изнасиловании крупного рогатого скота?» и спокойно собирайте результат. Этим в молодости прославился Ричард Никсон, чьи заказные опросы в период маккартизма навешивали на его оппонента ярлык коммуниста (c.33).
Иногда влияние опросов на поведение избирателей приводит к курьёзам. Так, на региональных выборах в Канаде ознакомившийся с результатом опроса избиратель-либерал узнал, что кандидат-либерал выиграет выборы с большим отрывом. Зачем же тогда избирателю тратить время на участие в выборах, если победа его кандидата гарантирована? Так подумали многие сторонники кандидата, из-за чего он и проиграл. Бывает и так, что значительная разница в голосовании за кандидатов по итогам опроса приводит к тому, что многие неопределившиеся голосуют за наиболее вероятного победителя. В редких случаях избиратели, напротив, отдают голос слабейшему кандидату для поддержки «несистемной политики». Изучение привычек электората позволит правильно подстроить результат опроса, чтобы повлиять на итоговые голоса.
Есть и более «грубые» методы корректировки дизайна опроса. Например, в Австралии проводился онлайн-опрос среди коренного населения в пригороде Аделаиды. Внезапно, туда попали люди, проживающие в Сиднее (на другом конце страны), которым неуклюже приписали другой адрес проживания. В тех же США известны случаи, когда телеканалы публиковали лишь выгодные спонсору результаты опроса, игнорируя остальные.
Не только мир политики полон сознательной предвзятости в опросах. Частные компании могут обманывать как своё руководство, так и правительство, и даже собственных работников. Например, в той же Австралии опросная организация сфабриковала возраст респондентов при проведении опроса по заказу министерства обороны, дабы набрать нужный объём выборки с минимальными затратами. В ЮАР одна фирма провела опрос среди сотрудников об удовлетворённости условиями труда и интерпретировала нейтральные ответы как положительные.
Широкое использование подобных уловок в опросах связано со сложностью доказательства злого умысла. Почти все перечисленные выше примеры — это типичное неосознанное смещение выборки в духе «Литературного обозрения» или Института Гэллапа.
А что если и журнал и сам Гэллап знали о своих смещениях, но не исправляли их сознательно? OH SH—
В России такого, разумеется, нет, невзирая на утверждения злых иноагентских языков:
— Получается, независимых опросов нет?
— Их нет в принципе. При этом все равно, кто является заказчиком. Не все равно — знаем мы этого заказчика или нет. Незнание этого приводит к катастрофическим ошибкам. Например, Институт Гайдара может заказать какой-либо опрос, и мы понимаем, что это будет либеральная повестка. А если «Правмир» или телеканал «Спас» закажет опросы, они будут другими. Изменится не только формат выборки, но и сами вопросы.
Конечно, не стоит абсолютизировать подобные утверждения. Заказчику нередко действительно требуется как можно более точная и незамутнённая информация для принятия адекватного решения. К сожалению, сами исполнители не всегда добросовестно выполняют это поручение, и именно поэтому результаты опросов следует перепроверять незаинтересованной стороной.
Заключение
На президентских выборах 2016 года в США произошла очередная неудача. Большинство опросов правильно предсказали проигрыш Трампа по голосам избирателей, но сильно переоценили его отставание от оппонента. В итоге Трамп одержал победу по голосам выборщиков за счёт «колеблющихся штатов», вступив в должность очередного президента США. Столь неожиданный результат всколыхнул серию гражданских протестов, а некоторые американцы меланхолично вопрошали: «Ну и зачем нужны были предвыборные опросы?». В такие времена всеобщего недоверия социологам и приходится работать...
Есть, конечно, и другие тонкости при составлении репрезентативной выборки. Но они уже являются частным случаем описанных в этом цикле явлений. Их мы оставим профильным специалистам. Достаточно знать, что опросы будут и дальше периодически ошибаться, пока не устранены причины этих ошибок. Чисто математически, любая выборка показывает правильный результат только с определённой вероятностью, даже если дизайн исследования выверен идеально, что бывает далеко не всегда. Если же составитель опроса и/или заказчик и вовсе не заинтересован(ы) в честном опросе, то никакая математика не перекроет чистейший человеческий фактор. На этом я умываю руки.
Автор: Фёдор Яковлев и CatNews
Если вы стали больше/меньше доверять опросам и вам понравился материал, вы можете отправить деньги на счёт автора (сбер 2202 2005 4871 3468). Финансы пойдут на открытие собственного авторского Института изучения общественного мнения.