Найти тему

Выборка как основной элемент статистики. Понимание на примерах.

Статистика и выборки

В статистике мы часто полагаемся на выборку, т.е. небольшую подгруппу большего набора данных, чтобы сделать выводы о этом большом наборе данных. Большая совокупность известна как совокупность, из которой отбирается выборка.

Пример №1: Вас наняла Национальная избирательная комиссия для изучения мнения американского народа о справедливости процедур голосования в США.

Кого бы вы хотели спросить? Не практично спрашивать каждого американца о том, что он/она чувствует по поводу справедливости процедуры голосования. Вместо этого мы опрашиваем относительно небольшое число американцев и на основании их ответов делаем выводы относительно всей страны. На самом деле опрошенные американцы составляют нашу выборку из более многочисленного населения всех американцев.

Математические процедуры, посредством которых мы преобразуем информацию о выборке в интеллектуальные догадки о населении, подпадают под рубрику "статистика льгот".

В этом случае выборка обычно представляет собой небольшую подгруппу населения. В случае с отношением избирателей, мы бы отобрали несколько тысяч американцев из сотен миллионов, входящих в состав страны. Поэтому при отборе выборки крайне важно, чтобы в ней не были чрезмерно представлены одни граждане за счет других.

Например, выборка была бы не верной, если бы она состояла исключительно из жителей Флориды. Если в выборку входили только флоридцы, то ее нельзя было использовать для вывода об отношении других американцев. Аналогичная проблема возникнет, например , если в выборку войдут только республиканцы.

Приференциальная статистика

Преференциальная статистика основана на предположении, что выборка является случайной. Мы полагаем, что случайная выборка представляет различные слои общества в близких к соответствующим пропорциям (при условии, что выборка достаточно велика; см. ниже).

Пример №2: Нас интересует, сколько уроков математики в среднем посещали выпускники американских колледжей и университетов в течение четырех лет обучения в школе.

Если в последнем примере наше население включало в себя всех граждан США, то сейчас речь идет только о выпускниках старших курсов по всей стране. Это все еще большой набор, поскольку в стране тысячи колледжей и университетов, в каждый из которых зачисляется большое количество студентов. (Например, в Нью-Йоркский университет зачисляется 48 000 студентов.)

Было бы непомерно долга изучать выписки из документов всех выпускников колледжа. Поэтому мы отбираем выборку выпускников колледжей, а затем делаем выводы для всего населения, основываясь на том, что мы находим. Для составления выборки мы могли бы сначала выбрать некоторые государственные и частные колледжи и университеты по всей территории Соединенных Штатов. Затем мы могли бы отобрать по 50 студентов из каждого из этих учреждений.

Предположим, что среднее число математических классов, взятых людьми в нашей выборке, составило 3,2. Тогда мы могли бы предположить, что 3,2 приблизительно соответствует числу, которое мы бы получили, если бы имели ресурсы для обследования каждого пожилого человека во всем населении. Но мы должны быть осторожны с вероятностью того, что наша выборка не является репрезентативной по отношению к населению.

Возможно, мы выбрали избыток математических дисциплин или слишком много технических вузов, предъявляющих высокие требования к математике. Такая плохая выборка делает нашу выборку нерепрезентативной по отношению ко всем пожилым людям. Для упрощения понимания смещения выборки рассмотрим следующий пример.

Попробуйте определитьвыборку, а затем подумайте, может ли она дать желаемую информацию.

Пример №3: Заменяющий учитель хочет знать, как ученики в классе справлялись с последним тестом. Учитель просит 10 учеников, сидящих в первом ряду, сообщить последние результаты тестирования. Из их доклада он делает вывод о том, что урок прошел очень хорошо.

Какой образец в нашей выборке? Что мы хотим получить в итоге? Можете ли вы выявить какие-либо проблемы с выбором образца таким образом, как это сделал учитель?

В Примере № 3 статистика состоит из всех учащихся в классе. Образец состоит только из 10 учеников, сидящих в первом ряду. Выборка вряд ли будет репрезентативной для населения. Те, кто сидит в первом ряду, как правило, проявляют больший интерес к учебе и, как правило, демонстрируют более высокие результаты в тестах. Следовательно, выборка может работать на более высоком уровне, чем совокупность.

Пример № 4: Тренеру интересно, сколько подтягиваний может сделать средний новичок колледжа в своем университете. Восемь добровольцев из класса первокурсников делают шаг вперед. Наблюдая за их достижениями, тренер приходит к выводу, что новички колледжа могут делать в среднем 16 раз подряд, не останавливаясь.

В Примере № 4, статистика - это класс всех новичков в университете тренера. Выборка состоит из 8 добровольцев. Выборка плохо подобрана, потому что добровольцы с большей вероятностью смогут делать подтягивания, чем обычные новички; люди, которые не умеют их делать, скорее всего, не стали добровольцами!

В данном примере нам также не сообщается пол добровольцев. Были ли они все женщины, например? Это может повлиять на результат, способствуя непредставительному характеру выборки (если школа является спортивной). Исследователи простых случайных выборок используют различные стратегии отбора попыток и случаев.

Продолжение в следующей статье...