Найти в Дзене

Методы составления выборки.

Оглавление

Продолжение моей предыдущей статьи про выборку как основной элемент статистики.

Самое простое что есть в статистике - простая случайная выборка. Такая выборка требует, чтобы каждый член совокупности имел равные шансы быть отобранным в выборку. Кроме того, выбор одного члена должен быть независимым от выбора каждого другого. Иными словами, выбор одного индивидуума из числа населения не должен увеличивать или уменьшать вероятность выбора любого другого члена (по сравнению с другими).

В этом смысле можно сказать, что простая случайная выборка выбирается по чистой случайности.

Чтобы проверить ваше понимание простой случайной выборки, рассмотрим следующий пример.

Пример № 5: Ученый-исследователь заинтересован в изучении опыта близнецов, выросших вместе, по сравнению с теми, которые выросли порознь. Она получает список близнецов из Национального реестра близнецов и выбирает две подгруппы лиц для своего исследования. Сначала она выбирает всех, чьи фамилии начинаются с Z. Затем она обращается ко всем, чья фамилия начинается с B. Потому что существует много имен, которые начинаются с B, однако наш исследователь решает включить в свою выборку только каждое другое имя. Наконец, она рассылает по почте опрос и сравнивает характеристики близнецов, выросших порознь, с характеристиками близнецов, живущих вместе.

В данном примере популяция состоит из всех близнецов, зарегистрированных в Национальном реестре близнецов. Важно, чтобы исследователь делал статистические обобщения только для близнецов из этого списка, а не для всех близнецов в стране или мире.

То есть, Национальный реестр близнецов не может быть представителем всех близнецов. Даже если выводы ограничиваются только регистром, на описанную нами процедуру выборки влияет ряд проблем.

Например, выбор только близнецов, фамилии которых начинаются с буквы Z, не дает каждому человеку равные шансы быть выбранным в выборку.

Кроме того, такая процедура чревата риском перепредставленности этнических групп с большим количеством фамилий, начинающихся с Z.

Есть и другие причины, по которым выбор только Z может исказить выборку. Возможно, такие люди более терпеливы, чем обычно, потому что они часто оказываются в конце очереди! =)

Та же проблема возникает при выборе близнецов, фамилия которых начинается с B. Дополнительной проблемой для этих людей является то, что процедура "все разные-все последующие" запретила смежные имена в части списка отбирать их обоих. Один только этот дефект означает, что выборка была сформирована не путем простой случайной выборки.

Размер выборки имеет значение

Помните, что определение случайной выборки - это выборка, в которой каждый член совокупности имеет равные шансы быть выбранным. Это означает, что процедура выборки, а не ее результаты определяют, что такое случайность выборки. Случайные выборки, особенно если размер выборки небольшой, не обязательно являются репрезентативными для всей совокупности.

Например, если бы случайная выборка из 20 обследуемых была взята из популяции с равным количеством мужчин и женщин, существовала бы нетривиальная вероятность (0,06), что 70% или более респондентов будут женщинами (как получить эту вероятность, далее в следующих статьях на моем канале). Такая выборка не была бы репрезентативной, хотя она и была бы составлена случайным образом.

Лишь большой размер выборки позволяет предположить, что наша выборка близка к репрезентативной для всей совокупности. По этой причине преференциальная статистика учитывает размер выборки при обобщении результатов по выборкам в совокупности. В последующих статьях вы увидите, какие виды математических методов обеспечивают такую чувствительность к размеру выборки.

Более сложная выборка

Иногда невозможно построить выборку с использованием простой случайной выборки. Чтобы увидеть проблему, рассмотрим тот факт, что и Даллас, и Хьюстон соревновались за места проведения Олимпийских игр 2012 года.

Представьте себе, что вас нанимают для оценки того, предпочитают ли большинство жителей Техаса Хьюстону Даллас в качестве хозяина или наоборот. Учитывая непрактичность получения мнения каждого техасца, вы должны составить выборку населения Техаса.

Но теперь обратите внимание, как трудно было бы использовать простую случайную выборку. Например, как связаться с теми людьми, которые не голосуют и не имеют телефона? Даже среди людей, которых вы найдете в телефонной книге, как вы можете идентифицировать тех, кто только что переехал в Калифорнию (и у них не было причин сообщать вам об их переезде)? Что вы сделаете с тем фактом, что с начала исследования в штате Техас проживает еще 4 212 человек? Как видите, иногда очень сложно разработать действительно случайные процедуры. По этой причине были разработаны и другие виды методов составления выборки.

В следующей статье мы обсудим два из них.