Найти в Дзене
Art of Data&Statistics

Легко и просто о базовых понятиях описательной статистики

Оглавление

Допустим, у нас есть научный вопрос. Чтобы ответить на него, мы должны разработать дизайн исследования. В дизайн исследования помимо некоторых иных вещей обязательно входят: сбор, анализ и интерпретация данных. Данные, которые далее подвергаются статистическому анализу, чаще всего представлены большим массивом чисел, показателей или другими возможными значениями проявления признака. Рассмотрим некоторые базовые понятия статистики, чтобы нам было легче работать в дальнейшем.

Что такое переменные?

Свойство объекта исследования, которое может принимать два или более значений, называется переменной. В противном случае, когда рассматриваемое свойство, характеристика, никак не изменяется, мы имеем дело не с переменной, а с константой.

В первой строчке А - это константа. Она всегда равна 7. Во второй строчке переменная А может принять любое угодное пользователю значение - это независимая переменная. Переменная В зависит от переменной А, так как равна сумме значений переменной А и цифры 3 - это зависимая переменная. Сама цифра 3 тоже константа.
В первой строчке А - это константа. Она всегда равна 7. Во второй строчке переменная А может принять любое угодное пользователю значение - это независимая переменная. Переменная В зависит от переменной А, так как равна сумме значений переменной А и цифры 3 - это зависимая переменная. Сама цифра 3 тоже константа.

Переменные бывают зависимыми и независимыми.

  • Независимыми называются переменные, которые варьируются исследователем.
  • Зависимые переменные - это переменные, которые измеряются или регистрируются.
-3

Пример: в исследовании мы хотим выяснить, как уровни солнечной радиации (независимая переменная) влияют на рост растения (зависимая переменная). Как мы видим, обе переменные могут иметь два или более значений, и ожидается, что при изменении одной (солнечное излучение) изменится другая (рост растений).

Генеральная совокупность и выборка как часть генеральной совокупности

Если суп хорошо перемешать, то достаточно одной ложки, чтобы сделать вывод о вкусе всей кастрюли.

Д. Гэллоп

Важно понимать, что, проводя, допустим, медицинские исследования, мы хотим понять, как работает тот или иной метод лечения или насколько точен существующий метод лечения у определенной группы пациентов. Поэтому необходимо понимать определения генеральной и выборочной совокупности.

Генеральная совокупность (population) – это совокупность всех объектов, обладающих общими признаками, и относительно которых нам хочется делать какие-либо выводы при анализе некоторой конкретной задачи.

Пример: исследуется эффективность хирургического лечения рака полости рта. В этом случае под генеральной совокупностью понимаются абсолютно все пациенты с диагнозом «рак полости рта». Но для ответа на поставленный нами научный вопрос мы не имеем возможности включить в исследование их всех, мы даже не знаем точного количества таких пациентов! Поэтому при проведении исследований используется выборочная совокупность.

Выборочная совокупность, выборка (sample) – это та часть генеральной совокупности, которая отбирается в рамках исследования. На основе выборки будет описываться генеральная совокупность; она будет отражать закономерности, свойственные генеральной совокупности.

Из генеральной совокупности, равной 150 тыс человек, выделили 250 человек - выборочную совокупность.
Из генеральной совокупности, равной 150 тыс человек, выделили 250 человек - выборочную совокупность.

!Важно! Репрезентативность выборки

Если выборка действительно характеризует всю генеральную совокупность, то такую выборку называют репрезентативной (представительной). Репрезентативность — очень важное свойство выборки, если выборка не является репрезентативной, то исследователь может сделать ошибочные выводы обо всех объектах исследования (всей генеральной совокупности).

Нельзя судить о среднем росте россиян по росту ста баскетболистов, которые тренируются во дворе вашего дома!
Нельзя судить о среднем росте россиян по росту ста баскетболистов, которые тренируются во дворе вашего дома!

Важнейшим способом увеличения репрезентативности выборки является её рандомизация – случайный характер. Это означает, что каждый член генеральной совокупности равновероятно может попасть в выборку для проведения эксперимента. Осуществить рандомизацию выборки необходимо с целью снижения возможной подтасовки результатов.

Пример: исследуется воздействие препарата на артериальное давление. В генеральную совокупность входят люди разной возрастной группы, но с одинаковыми показаниями к препарату. При этом исследователь может отобрать в экспериментальную группу людей помладше, а в контрольную группу (принимающие плацебо) – пациентов постарше, и тем самым улучшить показатели воздействия препарата. Понятно, что подобный отбор уже не является случайным.

Типы переменных (данных): качественные и количественные

Данные, полученные в ходе эксперимента, могут быть качественными и количественными. Для корректного использования статистических методов важно представлять, какого типа данные будут обрабатываться.

Переменные различаются тем "насколько хорошо" они могут быть измерены. Основным фактором, определяющим количество информации, которая содержится в переменной, является тип шкалы, в которой проведено измерение. Различают следующие типы переменных, которые соответствуют типу шкалы, в которой проведено измерение нашей переменной:

1) Качественные - это переменная, которая может принимать одно из ограниченного, и обычно фиксированного, количества возможных значений.

а) Номинальные (категориальные) переменные могут быть измерены только в терминах принадлежности к некоторым классам.

Пример: пол, национальность, город.

б) Порядковые (ординальные) переменные – также используются для качественной классификации, но позволяют ранжировать (упорядочить) объекты с указанием, какие из них в какой именно степени обладают качеством, выраженным данной переменной.

Пример: балльные оценки, полученные при проведении тестов или экспертиз; социоэкономический статус семьи (высший, верхний средний, средний уровень, ниже среднего уровня).

2) Количественные переменные — признаки, которые можно выразить в числовой форме: возраст, вес, количество эритроцитов в 10(степень12)/л крови. В свою очередь, они делятся на:

а) непрерывные (измеряемые в интервальной шкале) - данные, которые могут принимать любое значение на непрерывной шкале.

Пример: рост человека (взрослого) может принимать любое значение в интервале от 150 до 220 см: 162, 178, 182 см, то есть, произвольное числовое значение на шкале в заданном интервале.

б) относительные переменные (измеряемые в шкалах отношений) - очень похожи на интервальные, но имеют характерную черту: наличие определенной точки «абсолютного нуля».

Пример: 24 часа в сутках (отсчёт времени новых суток мы начинаем с нуля часов нового дня). Вообще измерения времени или пространства являются типичными примерами относительных переменных.

-6

!Итак, нетрудно понять, что любой анализ данных начинается с внесения их в табличку, удобную для текущего рассмотрения и дальнейшего использования!

В качестве примера рассмотрим таблицу, которая содержит значения показателей гемограмм пациентов.

Таблица с показателями гемограмм 28 рандомных пациентов.
Таблица с показателями гемограмм 28 рандомных пациентов.

Что мы можем сразу сказать, глядя на таблицу?

Из колонки А мы понимаем, что выборка состоит из 28 пациентов (n = 28).

Колонка В содержит номинальные переменные – пол пациентов.

В двух следующих колонках отображена информация о возрасте пациентов: в колонке С указан точный возраст (количественная относительная переменная).

В колонке D этот тип данных преобразован в порядковый (ординальный) вид переменных в соответствии с классификацией возрастов, принятой Всемирной организацией здравоохранения (ВОЗ): молодой (18 – 44 года), средний (45 – 59 лет), пожилой (60 – 74 года) и старческий возраст (75 – 90 лет), а также долголетие (90 и более лет).

Столбцы от E до H содержат информацию о количестве эритроцитов (в 10(степень12)/л), тромбоцитов (10(степень9)/л), лейкоцитов (10(степень9)/л) и показатель гемоглобина (г/л), которые относятся к количественным непрерывным переменным.

В последней колонке I внесена группа крови, которая, как и переменная «Пол», является номинальной переменной.

Что ещё можно сказать о переменных в нашей таблице?

Исходя из определения зависимой переменной (те переменные, которые измеряются или регистрируются), мы можем предположить, что:

  • количество эритроцитов, тромбоцитов и лейкоцитов, а также показатель гемоглобина, будут рассматриваться именно в таком качестве в большинстве анализов;
  • остальные переменные (пол, возраст, группа крови) являются в основном независимыми.

Таблицу с показателями гемограмм пациентов мы в дальнейшем будем использовать для расчёта Описательных статистик. Описательная статистика позволяет описать данные, но не позволяет сделать статистических выводов. Пример: мы можем вычислить долю мужчин и женщин в исследуемой группе пациентов, определить средний уровень гемоглобина у пациентов или узнать наиболее часто встречаемую группу крови. В программе Statistica Описательные статистики можно рассчитать как в базовом варианте (Quick, Быстро), так и в расширенном варианте Advanced (Расширенные настройки).

Наука
7 млн интересуются