314 подписчиков

Как получить репрезентативную выборку?

4 мая4 мая

17 мин

Сегодня утром мы узнали, что объём выборки не должен рассчитываться как некий процент от общей численности населения. Чтобы ярко проиллюстрировать это, нам пришлось сильно упростить наш пример. Теперь переходим к более реалистичной картине мира. Сейчас рассмотрим особенности составления различных вероятностных выборок, определимся с пониманием случайности отбора и рассмотрим причины, которые требуют увеличения выборки. И, конечно же, вернёмся к нашему любимому журналу «Литературное обозрение»! Убедившись, что с ростом генеральной совокупности увеличение размера выборки практически перестаёт влиять на репрезентативность, впору задаться следующим вопросом: что же тогда эту репрезентативность определяет? Ответ прост — случайность попадания объектов в выборку. Но как обеспечить эту случайность? Вопрос уже чуть сложнее. Под случайностью мы понимаем равную (либо заранее известную ненулевую) вероятность попадания каждого объекта генеральной совокупности в выборку. Для этого нам понадобится пр

Оглавление

Введение: «Генерация случайных чисел слишком важна, чтобы оставлять её на волю случая» (с)
Основы репрезентативных выборок в схемах без мемов
Что за вероятностные выборки?

Как нам всех пересчитать? О репрезентативной выборке

CatUniverse4 мая

Сейчас рассмотрим особенности составления различных вероятностных выборок, определимся с пониманием случайности отбора и рассмотрим причины, которые требуют увеличения выборки. И, конечно же, вернёмся к нашему любимому журналу «Литературное обозрение»!

Убедившись, что с ростом генеральной совокупности увеличение размера выборки практически перестаёт влиять на репрезентативность, впору задаться следующим вопросом: что же тогда эту репрезентативность определяет? Ответ прост — случайность попадания объектов в выборку. Но как обеспечить эту случайность? Вопрос уже чуть сложнее.

Введение: «Генерация случайных чисел слишком важна, чтобы оставлять её на волю случая» (с)

Под случайностью мы понимаем равную (либо заранее известную ненулевую) вероятность попадания каждого объекта генеральной совокупности в выборку. Для этого нам понадобится простой и банальный генератор случайных чисел. Но тут есть важный нюанс.

Мудрая черепаха из «Кунг-фу Панды» была совершенно права. Дело в том, что «рукотворные» генераторы случайных чисел на самом деле генерируют псевдослучайные числа. Если сильно упрощать, такие генераторы работают по математическому алгоритму, который берёт некое стартовое число и разворачивает из него длинную последовательность. Чем длиннее эта последовательность до повторения, тем качественнее генератор. Но она конечна, и рано или поздно цикл начинается заново. Потратив время на ручной расчёт или написав программу, можно отследить момент «перезапуска» и предсказывать каждое следующее число.

К счастью, для разработки метода случайного отбора в социологических опросах «истинная» случайность не требуется. Случайность интересует нас не как абсолютный хаос непредсказуемости подбора каждого элемента, а как заданная вероятность его попадания в выборку. Достаточно, чтобы сгенерированная последовательность была неизвестна респондентам и непосредственным исполнителям. И самое главное — псевдослучайная последовательность позволяет проверять корректность работы интервьюеров, сравнивая реальный «случайный отбор» на местах с тем, что предписывала последовательность. При «истинной» случайности воспроизвести её для контроля было бы невозможно.

Короче говоря, хороший генератор (псевдо)случайных чисел успешно применяется для создания репрезентативных вероятностных выборок. Итак, ключевая особенность репрезентативной выборки — случайность попадания в неё элементов генеральной совокупности.

Основы репрезентативных выборок в схемах без мемов

Помните аналогию с пиццей? Отрезав от неё кусок, мы можем судить о составе пиццы в целом — от корочки до сыра. Но что, если мастер-шеф ~~— чудак и~~ разложил ингредиенты неравномерно? Как тогда правильно нарезать пиццу? Ответить на этот вопрос помогут вероятностные выборки.

Что за вероятностные выборки?

Такие выборки считаются наиболее точными благодаря рандомизации отбора. Пусть вероятностные выборки применимы не всегда, но именно с ними социологи имеют дело чаще всего. Таких выборок существует несколько.

Простая случайная выборка — это классика, примером которой мы оперировали в первой части. Берём список плюковчан, пропускаем через генератор случайных чисел, собираем выборку из номеров, выданных генератором. Такая выборка предполагает однородность генеральной совокупности, одинаковую доступность всех элементов и наличие полного списка всех единиц. Достоинства очевидны: минимизация ошибки, лёгкая проверяемость, простота проведения.

Ключевой минус: вам требуется конечный список всех плюковчан, который можно «скормить» рандомайзеру. А ведь составить такой список корректно — задача не из простых, как показал пример «Литературного обозрения». Иногда список может оказаться чересчур большим, что сильно удорожает исследование.

Есть и другие, не менее важные недостатки. Например, при простой случайной выборке большую вероятность попасть в неё имеют регионы с большим количеством населения, что может привести к значительному смещению результата. Представьте, что вы захотите описать день «типичного» россиянина, при том что большинство населения страны проживает в Европейской части России. Наконец, однородность генеральной совокупности в реальности встречается редко. Чем выше разнородность (доля признака стремится к 0,5 в формуле расчёта ошибки выборки), тем больший объём выборки требуется для репрезентативности. Само по себе это не проблема, но если бюджет ограничен, понадобится другой метод.

Тем не менее простая случайная выборка успешно применяется в простейших маркетинговых исследованиях — именно её вам предложат большинство онлайн-калькуляторов для ИПшников. Кроме того, она является теоретическим эталоном. Используемый в статистике «эффект дизайна» показывающий смещение результата более продвинутых выборок, демонстрирует отклонение именно относительно простой случайной выборки.

Механическая выборка — более продвинутый вариант. Берём список плюковчан и делаем выборку с равным интервалом. Шаг отбора (К) рассчитывается по формуле K = N / n, где N — объём генеральной совокупности, n — желаемый объём выборки. Например, N = 2000, n = 200, тогда K = 2000 / 200 = 10. Это значит, что из списка должна быть отобрана каждая десятая единица. Достоинства: простота, относительная дешевизна, более высокая точность за счёт равномерного распределения выборки по совокупности — если список упорядочен по возрастанию или убыванию какого-либо признака (например, фирмы выстроены по объёму продаж).

Минус тот же: нужен полный список плюковчан. Список должен быть хорошо упорядочен, без пропусков и дубликатов. Кроме того, он не должен обладать собственной периодичностью, совпадающей с шагом выборки. Например, если список чередует плюковчан по полу — «сепульки-муркви», — и мы отбираем каждую вторую единицу, то в выборку попадут только муркви, и операция «репрезентативность» провалится полностью. В механической выборке также сложнее оценить дисперсию признака (с.3-4), ведь она не является полностью случайной: из-за фиксированного шага не все возможные комбинации элементов имеют равную вероятность быть отобранными.

Однако механическая выборка применяется гораздо чаще — от медицинских (там же, с.4) до социологических исследований. Описан случай при переписи населения СССР в 1989 году, когда существовала опасность попадания в выборку квартир только одного типа: на лестничных площадках многих типовых домов расположено по 4 квартиры. Чтобы избежать ошибки, в каждом новом подъезде счётчик менял начало отбора.

Стратифицированная выборка — ещё более продвинутый и один из самых распространённых вариантов. Берём плюковчан и разделяем их на интересующие нас страты — по возрасту, этническому происхождению, ежемесячному доходу и тому подобному. Затем внутри каждой страты можно использовать простую случайную выборку для отбора репрезентативного числа респондентов. Достоинства: гарантированное представительство меньшинств (например, национальных), гибкость в методах опроса (для каждой страты можно придумать свой способ коммуникации), лёгкая возможность замены (если на звонок интервьюера не ответил один респондент, отвечает другой) — чего нельзя сделать в механической выборке.

Увы, лишённый недостатков предыдущих типов, этот метод тоже несовершенен. Он требует особой точности при составлении списка генеральной совокупности. Нужно знать её внутренние признаки, чтобы выделить страты. Эти страты должны отличаться друг от друга сильнее, чем объекты внутри каждой страты. Также может возникнуть ситуация, когда размер выборки из какой-либо страты сильно не соответствует её доле в генеральной совокупности. В этом случае используются так называемые «весовые коэффициенты»: для обеспечения репрезентативности малых страт мы присваиваем им больший числовой коэффициент в формуле расчёта выборки, как бы «искусственно выправляя» соотношение объектов в выборке. Всё это даёт комплексное, длительное и довольно дорогое исследование, которое под силу только целому коллективу с хорошим финансированием.

Яркий пример использования стратифицированной выборки можно найти в приказе Минздрава России от 19.07.2022 N 495 о правилах проведения выборочного опроса об удовлетворенности медицинской помощью.

Значение Z и E в формуле меняется в соответствии с численностью совершеннолетнего населения в том или ином регионе страны. Значение Z - 1,96 соответствует 95% надёжности. Z - 1,64 соответствует 90% уровню надёжности.

Кластерная выборка — компромиссный вариант между дороговизной стратифицированной выборки и её репрезентативностью. Доступные плюковчане разбиваются на интересующие нас кластеры (как правило, «естественные», например, по месту проживания), а затем исследуются все плюковчане внутри случайно отобранных кластеров. Отличие от стратифицированной выборки в том, что в первой случайный отбор происходит из всех страт, тогда как в кластерной изучается вся совокупность внутри случайно выбранных кластеров. Иногда из этих кластеров тоже отбираются случайные объекты — тогда выборка называется кластерной многоступенчатой. Достоинства: значительно дешевле и быстрее в обработке, поскольку не требует полного списка всех единиц, а только внутри отобранных кластеров.

Недостаток этого типа выборки — в столь же жёстких критериях формирования кластеров: они должны быть максимально разнообразны внутри, но однородны снаружи (у стратифицированной выборки — ровно наоборот). Кроме того, кластерная выборка обычно страдает большей погрешностью относительно простой случайной при том же размере выборки. Это и называется «эффектом дизайна», и его, разумеется, можно рассчитать. Но отложим это на сладенькое.

Кластерная выборка сама по себе используется не так уж часто. Обычно она входит составной частью в гибридные выборки.

Многоступенчатая, гибридная выборка — как можно догадаться, процесс отбора разбивается на несколько этапов, на каждом из которых методика отбора может меняться. Например, можно разбить население Плюка на страты, страты — на кластеры, а внутри кластеров провести простую случайную выборку. Достоинства: сравнительная дешевизна (благодаря отсутствию полного списка всех единиц генеральной совокупности), методологическая гибкость, возможность уточнения выборки по ходу исследования на каждом из этапов.

Гипотетический пример отбора в многоступенчатой выборке.

Как мы уже поняли, каждый тип выборки обладает собственным систематическим смещением. В случае гибридной выборки смещения начинают наслаиваться друг на друга, отчего сильно страдает точность. Если хотя бы на одном из этапов отбора произошла грубая ошибка, это сказывается на репрезентативности всего исследования по принципу домино. Такой подход требует значительного контроля качества— штата матёрых статистиков — и, как следствие, роста затрат при сравнительно высокой погрешности, который компенсируется только ростом размера выборки.

Тем не менее гибридные выборки нередки. Пример тому — Приказ Росстата от 29.12.2023 N 707 (ред. от 13.11.2024) «Об утверждении основных методологических и организационных положений по проведению выборочного обследования рабочей силы». На его примере можно оценить комплекс математических формул, необходимых для создания такой выборки.

Итак, с типами вероятностных выборок мы разобрались. Оказывается, в каждой из них есть свои изъяны, требующие для решения сложной математики. И чаще всего математика приходит к выводу, что размер выборки нужно увеличивать.

Почему размер всё же имеет значение?

Как же так? Мы начали с того, что размер выборки не так уж важен, а теперь оказывается наоборот? На самом деле основной тезис всё ещё в силе. Размер выборки по-прежнему не рассчитывается как процент от генеральной совокупности. К тому же даже «раздутая» выборка всё равно будет составлять жалкие тысячные доли процента от объёма генеральной совокупности. Увеличивать выборку приходится по ряду причин.

Помните эффект дизайна, который гласит, что одинаковой размер выборки для простой случайной и более сложной даёт разную погрешность? Например, в случае кластерной выборки эффект дизайна рассчитывается следующим образом:

DEFF = 1 + ρ · (m − 1)

где:

m — средний размер кластера (количество опрошенных единиц внутри одного кластера, например, сколько соседей в одном доме мы опросили);

ρ — показывает, насколько ответы людей внутри кластера похожи друг на друга по сравнению с ответами случайных людей из разных кластеров.

Например, мы хотим узнать удовлетворённость условиями труда дворников-плюковчан. Воспользовавшись простой случайной выборкой, мы опросили 1500 существ. То же количество мы разбили на 10 кластеров (допустим, 10 ЖЭКов) и в случайно выбранных кластерах опросили по 150 существ. С помощью целой цепочки математических формул которые приводить избыточно, мы выяснили, что внутри кластера оценки разнятся очень слабо и ρ = 0,01.

Тогда:
DEFF = 1 + 0,01 × (150 − 1) = 2,49.

Далее делим размер выборки на полученное число:
1500 / 2,49 ≈ 602,40.

Это означает, что опрос 1500 дворников методом кластерной выборки по своей точности эквивалентен опросу примерно 602 дворников простой случайной выборкой. Это слишком мало. Нам придётся увеличить размер выборки, включив в неё ещё с десяток-другой кластеров — в итоге объём кластерной выборки вырастет до 3900 существ (что эквивалентно 26 кластерам). Короче говоря, в зависимости от степени однородности мнений внутри кластера и размера самого кластера, кластерная выборка требует в 2–4 раза большего размера, чем простая случайная. Это легко проверить по формуле выше.

Для других выборок логика та же. Мы сравниваем дисперсию нашей хитрой выборки с дисперсией эталонной «простушки». Просто формула меняется в зависимости от того, чем именно мы усложнили дизайн. Иногда, впрочем, эффект дизайна может быть меньше единицы. Это значит, что применение более сложной выборки потребует меньшего размера опрошенных, чем простая случайная. Такое обычно бывает при использовании стратифицированной выборки. В этом ещё одно её важное преимущество.

Ещё одна проблема связана с низким уровнем отклика. Если вы насчитали, что для репрезентативной выборки с заданными уровнем надёжности и погрешностью вам потребуется опрос, скажем, 15 000 плюковчан, смело умножайте это число на коэффициент предполагаемого отклика. Он рассчитывается как число ответивших, делённое на размер выборки и умноженное на 100. Например, если из 15 000 плюковчан на анкету ответили 7 500, то уровень отклика составит (7 500 / 15 000) × 100 = 50%. 50% — хороший показатель, но для наших целей он недостаточен. Придётся увеличить выборку вдвое — до 30 000 существ, чтобы при 50%-ном отклике получить желаемые 15 000 ответов.

Второй вариант — переработать дизайн исследования, чтобы повысить уровень отклика. Например, переформулировать вопросы, пообещать вознаграждение за прохождение опроса и тому подобное. Тогда отклик вырастет, и выборку можно увеличивать не столь радикально. Ещё один способ — добавить уже знакомые нам весовые коэффициенты. Если мы проводим онлайн-опрос и опасаемся, что в выборку попадёт слишком мало людей старше 65 лет, можно просто придать их ответам больший вес в формуле расчёта. Но это, как мы помним, увеличит эффект дизайна. Плата за «ремонт» выборки с помощью весовых коэффициентов описывается формулой Киша. Чем сильнее различаются веса у разных респондентов, тем больше эффект дизайна и тем сильнее нам придётся раздувать выборку.

Какой путь выбрать? Зависит от расчёта альтернативных издержек. Если окажется, что дешевле просто увеличить выборку вдвое (с поправкой на репрезентативность страт, если используется стратифицированная выборка), лучше не заморачиваться с повышением процента отклика. Однако если уровень отклика чрезвычайно низок, стоит поработать над дизайном исследования — иначе рискуете провалиться так же, как в своё время «Литературное обозрение» с уровнем отклика в ~20% (с.354).

Ещё одна причина увеличивать выборку — проверка «статистической мощности» исследования. Например, мы хотим выяснить, сколько существ нужно опросить, чтобы быть уверенными: после запуска новой рекламы узнаваемость паблика CatTech на планете Плюк вырастет с 10% до 12%. Да, это тоже можно рассчитать по специальной формуле.

Уровень значимости (α) — вероятность «ложной тревоги», то есть ошибочного вывода о наличии эффекта. Определяется исследователем. Допустим, 0,01 (1%).
Желаемая мощность (β) — вероятность заметить эффект, если он действительно есть. Определяется исследователем. Допустим, 0,99 (99%).
Исходная доля (p₁) — 0,10 (10%).
Ожидаемая доля (p₂) — 0,12 (12%).

Давайте сэкономим друг другу время ввиду громоздкости формулы. Выводы, которые из неё следуют, и так вполне очевидны. Чем меньше ожидаемое изменение доли, чем ниже уровень значимости и чем выше желаемая мощность, тем больше должен быть размер выборки. При этом важно учесть, что здесь мы используем метод исследуемой (те, кто видел рекламу) и контрольной (те, кто не видел) групп. То есть итоговый результат нужно умножить на два — именно это число и будет размером выборки.

Ещё одна причина завышать выборку связана с необходимостью делать выборку из выборки. Например, если мы захотим изучить клиентов авиакомпании по целям поездки.

Формулу размера ошибки выборки мы уже знаем, так что проверить корректность данных в табличке будет несложно.

Если мы согласны на допустимую погрешность в 4,4%, будет достаточно опросить всего 500 человек. Однако если мы разобьём выборку из 500 человек на подвыборки по целям поездки, то получим нерепрезентативный результат. Выход — увеличение общего объёма выборки, чтобы и сами подвыборки стали больше. Либо использование всё тех же весовых коэффициентов для малых подвыборок — ценой роста эффекта дизайна, который, в свою очередь, тоже потребует увеличения выборки.

Анализ подгрупп потребителей развлекательных услуг. Если жмёт бюджет, допустимо проигнорировать наименее популярные услуги и увеличить выборку до 1800 чел. без добора.

Все перечисленные выше факторы, требующие увеличения выборки, порою встречаются одновременно. Эффект дизайна (в случае гибридных выборок суммируется), слабый отклик, проверка статистической мощности и анализ подвыборок оказывают кумулятивный эффект. Именно поэтому социологи берут выборку «с запасом», чтобы учесть все искажения и сохранить репрезентативность.

Пример из советского статсборника. Выборка в 310 тыс. семей покажется чрезмерно большой на первый взгляд, но учитывая количество подвыборок в данном исследовании и возможные искажения, такое число окажется в самый раз.

Заключение

Полагаю, после всей полученной информации читателя интересует только один вопрос: почему же журнал «Литературное обозрение» корректно предсказывал результаты выборов до 1936 года, хотя игнорировал все эти статистические тонкости? И действительно, журнал никогда не использовал ни одну из перечисленных выборок — он просто печатал анкету и рассылал её каждому избирателю из собственного списка, то есть проводил сплошной, а не выборочный опрос (с.3):

В некоторых регионах охват опросов был поразительным. Журнал «Literary Digest» (1936b) утверждал, что опросил каждого третьего зарегистрированного избирателя в Чикаго, каждого второго зарегистрированного избирателя в Скрантоне, штат Пенсильвания, и каждого зарегистрированного избирателя в Аллентауне, штат Пенсильвания.

Ответ кроется в анализе более ранних опросов. Как показали современные исследования, предыдущие опросы журнала тоже страдали заметным смещением — прежде всего из-за того, что подписчиками издания были в основном избиратели-республиканцы. Исправить ситуацию можно было с помощью уже знакомого нам «взвешивания»: добавить веса ответам демократов (с.7-8). Но никому не было интересно этим заниматься. Общественности хватало того, что журнал правильно называл победителя, а на разброс оценок мало кто обращал внимание. Статистики же «Обозрения» уповали на то, что два предыдущих опроса по случайному (как выяснилось позже) стечению обстоятельств оказались весьма точными (там же, с.9–11).

Пока поведение избирателей оставалось более или менее однородным, «Литературному обозрению» везло. Но с приходом Рузвельта и расколом мнений по имущественному признаку журнал потерпел фатальную неудачу, стоившую ему разорения.

Джордж Хорас Гэллап. В глазах читается уверенность победителя.

Джордж Гэллап тоже оказался не так прост. Если «Обозрение» в качестве списка генеральной совокупности использовало подписчиков, телефонные и автомобильные справочники, то Гэллап обратился в бюро переписи населения США. Прикинув пропорции населения по возрасту, уровню дохода, месту проживания (город или деревня), численности избирателей в штате, а также по голосованию за те или иные партии на предыдущих выборах, он распространил эти же пропорции на свою выборку (с.10). Грубо говоря, если в бюро переписи сказано, что женщины составляют 53% населения, значит, и в выборке их должно быть ровно столько же. Такой тип выборки называется квотной, и он тоже не относится к вероятностным — люди в него отбираются не случайным образом.

Карьера американского социолога оказалась на редкость удачной. Он обогатил статистику не только своими победами, но и поражениями. Злоупотребление квотной выборкой сыграло с ним злую шутку на президентских выборах 1948 года…

В следующей части мы рассмотрим невероятностные выборки, научимся сравнивать разные выборки друг с другом, а также поговорим о том, каким ещё искажениям могут быть подвержены опросы. И конечно же, узнаем, каким образом 12 лет спустя провалился сам Джордж Гэллап. Короче говоря, не переключайтесь!

Система частичного банковского резервирования

CatUniverse7 апреля

Автор: Фёдор Яковлев и CatNews