Как выбирать и что делать?
Давайте поговорим о технической стороне вопроса, как же создать эту вашу выборку? Уже давно придуманы умными головами различные методы и схемы. Давайте на них посмотрим.
Методы отбора образцов
1. Простая случайная выборка (рандомно нахватали и хорошо).
Предполагается, что все элементы генеральной совокупности более-менее одинаковы, поэтому между ними нет никакой разницы, берем как хотим.
2. Систематический отбор (поделили на равные части и выбрали случайно из каждой части).
Здесь логика отличается от логики в простой случайной выборке, мы предполагаем (а бог располагает), что элементы в генеральной все-таки не совсем одинаковые, и у них есть индивидуальные отличия. Они как пассажиры в переполненном автобусе, вроде бы все одинаковые, но есть и бабки с дедками престарелые и женщины беременные, вроде бы у всех одно и то же, да не совсем.
Покажем это на примере. Пусть, нам надо измерить какой-то показатель сердца 50 раз за 10 сек, запись с помощью прибора можно проводить каждую миллисекунду (мс). Т.е. у нас есть 10 сек × 1000 = 10’000 мс, делим 10’000 мс на 50 равных частей и получим 200 мс. Т.е. нам нужно провести по 1 измерению в 200 мс 50 раз.
Внимание! Некоторые «умники» используют такой «систематический отбор»: «… выбрали каждого третьего/ пятого/ двадцать пятого больного…». Это все не имеет отношения к систематическому отбору, так как положение пациента является фиксированным, а подобные схемы считаются необъективными и предвзятыми, поэтому их нужно избегать. Как исправить? Нужно брать не каждого третьего, а разделить всех пациентов по тройкам и случайно выбрать одного из каждой тройки, тогда это можно полноценно назвать систематическим отбором.
3. Стратифицированная выборка (случайно выбрали из каждой подкатегории определенный процент элементов)
Она также применяется при неоднородности генеральной совокупности, например, нужно исследовать влияние повышенных нагрузок у спортсменов на сердце. Мы нашли 100 теннисистов, 200 боксеров и 300 волейболистов. Нужно выбрать 60 человек для исследования из 600. Как это сделать? Можно воспользоваться ранее описанным методами (простая случайная выборка, систематический отбор), однако проблема в том, что волейболистов у нас почти 50%, и мы можем получить несбалансированную предвзятую выборку, так как там вероятность нахождения волейболистов больше, чем теннисистов. Что будем делать? Мы хотим взять по 10% от общего числа, правильно, а давайте выберем по 10% от каждой группы, а эти 10% в каждой группе выберем случайно. То есть мы выберем случайно 10 человек из 100 теннисистов, 20 человек из боксеров и 30 человек из волейболистов. Таким образом, получим сбалансированную выборку.
4. Групповая (кластерная) выборка (как случайная, только для кластеров)
Метод часто применяется в эпидемиологии, так как позволяет экономить ресурсы. В этом методе мы выбираем случайно с равной вероятностью не отдельные элементы (например, пациентов в больнице), а стазу группы или кластеры (например, семья, больничная палата). Такие кластеры рассматриваются как единый гомогенный элемент. в данном подходе снижается точность, но это снижение можно компенсировать увеличением числа кластеров (т.е. выборки).
5. Неравномерная выборка
В случае редкой распространенности в популяции какого-либо свойства, простая случайная выборка не может дать достаточное количество субъектов для оценки интересующих параметров. Например, одной из серьезных проблем человечества являются проблемы сердца, ученые пытались оценить вероятность развития тех или иных болезней сердца в различных возрастных и расовых/этнических группах. Оказалось, что чернокожие реже имеют проблемы с сердцем, так, например, при случайной выборке 100 европейцев, 100 азиатов и 100 негров, среди чернокожих может совсем не оказаться людей, имеющих какие-либо нарушения в деятельности сердца. Тогда как же быть? Исследователи просто увеличили долю чернокожих в исследовании, при этом стало возможным сделать обобщенные выводы для людей разных рас. Если бы это не было сделано, то вероятность получения некорректных выводов резко бы возросла.