Найти в Дзене
Art of Data&Statistics

Критерий Стьюдента (t-критерий): практическая реализация в программе STATISTICA. Часть 3: t-критерий для зависимых выборок

Программа STATISTICA позволяет применять четыре варианта t-критерия:

  • критерий для независимых выборок по группам (t-test, independent by groups);
  • критерий для независимых переменных (t-test, independent by variables);
  • критерий для зависимых выборок (t-test, dependent samples);
  • критерий для одной выборки (t-test, single sample).

Перед исследователем часто возникает задача проверить, различаются ли два столбца чисел в работах типа “до/после”. Это может быть результат измерения некоторой величины у одного и того же объекта как до, так и после некоторого вмешательства – проведённое лечение, просмотр рекламы, регулировка прибора и другие. Иными словами, выборки у нас в этом случае будут зависимыми: сравниваемые значения должны быть получены при повторных измерениях одного параметра у одних и тех же пациентов.

В программе STATISTICA реализован способ сравнения данных t-тестом для двух зависимых выборок - критерий Стьюдента для зависимых выборок (t-test, dependent samples). Он основаны на обработке таблицы данных в том варианте, когда они внесены в самостоятельные столбцы.

Применение t-критерия для зависимых выборок позволяет проверить гипотезу о том, что среднее значение выборки "до", достоверно отличается от среднего значения выборки "после".

Пример: нам необходимо сравнить между собой результаты выполнения логических задач 11 студентами до и после прохождения курса обучения.

Данные, как уже было упомянуто, вносятся в общую таблицу в виде самостоятельных столбцов. Каждая строчка представляет собой порядковый номер студента, и показатели, которые относятся к его персоне: результаты выполнения логических задач до прохождения курса обучения и его же результаты выполнения задания после прохождения курса. Наша задача заключается в сравнении двух рядов данных. Они расположены в столбце В - "Результаты до курса (сек.)", и в столбце С - "Результаты после курса (сек.)".

-2

Здесь мы применяем t-критерий для зависимых выборок (t-test, dependent samples). Первые шаги будут такими же, как и для уже рассмотренных t-критериев для независимых выборок по группам и переменным.

Сперва необходимо нажать на вкладку Statistics (Статистики): найти строчку Basic Statistics and Tables (Основные статистики и таблицы), и нажать на неё.

-3

Из открывшегося списка выбрать пункт t-test, dependent samples (t-критерий для зависимых выборок).

-4

В результате этого перед нами появляется диалоговое окно с нашим t-test, dependent samples.

Нажав на кнопку Variable, мы переходим в поле выбора переменных. В поле слева, где отмечено First variable list, указываем "Результаты до курса (сек.)", в поле справа, Second variable list, указываем "Результаты после курса (сек.)". Первая и вторая переменная указаны под номерами "2" и "3" соответственно, так как на первом месте расположен порядковый номер студента "№".

-5

Нажимаем на ОК. Переходим обратно в диалоговое окно с t-test, dependent samples.

-6

Убедившись, что переменные указаны верно, нажимаем кнопку Summary или Summary T-tests. Получаем таблицу с результатами вычисления t-критерия. Сразу обращает на себя внимание, что она отличается от таблиц вычисления t-критерия для независимых выборок по группам и переменным. В таблицах с независимыми выборками средние значения (Mean) и их стандартные отклонения (Std. dev.), а также объём выборки (Valid N) рассчитаны для каждой выборки и находятся на одной строке. Это понятно, так как выборки независимые, они - разные, и помимо разных Mean и Std. dev., они могут иметь и разный объём. Что касается таблицы с зависимыми выборками, сравниваемые переменные разнесены по разным строкам, и отдельно считаются, естественно, только Mean и Std. dev. Они расположены сверху для группы "Результаты до курса (сек.)" и снизу, со всеми остальными значениями, для группы "Результаты после курса (сек.)".

-7

Итак, результаты вычисления t-критерия:

-8

Что значат цифры в получившейся таблице? Слева направо:

  • Mean, расположенные друг под другом - средние значения в группах "Результаты до курса (сек.)" (сверху) и "Результаты после курса (сек.)" (снизу);
  • Std. dev. - стандартное отклонение для среднего в группах "Результаты до курса (сек.)" (сверху) и "Результаты после курса (сек.)" (снизу);
  • N - объём выборки, одна цифра, так как выборка у нас одна, просто с результатами “до/после";
  • Diff. - разность между двумя средними значениями зависимых групп "Результаты до курса (сек.)" и "Результаты после курса (сек.)";
  • Std. Dv. Diff. - стандартное отклонение разности между двумя средними значениями зависимых групп "Результаты до курса (сек.)" и "Результаты после курса (сек.)";
  • t-value - собственно, значение t-критерия Стьюдента;
  • df - число степеней свободы;
  • p - уровень статистической значимости результатов, который должен быть p ≤ 0,05. В нашем случае он значительно меньше.

Таким образом, мы можем говорить о том, что 11 студентов до прохождения курса обучения выполняют серию логических задач в среднем за 27,55 сек (стандартное отклонение составляет 5,39 сек). После прохождения курса обучения эти же студенты выполняют серию логических задач в среднем уже быстрее: за 24,09 сек (стандартное отклонение - 4,21 сек). Разность между двумя средними значениями этих двух зависимых групп составляет 3,46 сек (стандартное отклонение - 2,73 сек). Значение t-критерия Стьюдента составляет 4,19. Различия в скорости выполнения логических задач статистически достоверны на высоком уровне значимости (p = 0,001854).

*Все значения из таблицы, за исключением p-уровня, округлены до сотых.

Визуально оценить степень зависимости между двумя группами переменных можно с помощью диаграммы "Ящик-усы". Для этого в диалоговом окне с t-test, dependent samples, необходимо щёлкнуть на кнопке Box & whisker plot.

Видно, что у студентов после курса обучения значения времени выполнения логических задач меньше по сравнению с их же результатами до обучения.
Видно, что у студентов после курса обучения значения времени выполнения логических задач меньше по сравнению с их же результатами до обучения.

Получившиеся "Ящик-усы" похожи на те, которые получались при расчёте t-критерия для независимых переменных. Только вдоль оси абсцисс под каждой диаграммой указано, что это не "1 группа" и "2 группа", а "Результаты до курса (сек.)" (слева) и "Результаты после курса (сек.)" (справа).