Кросс-табуляция - построение таблиц сопряжённости, не просто важный, а часто обязательный этап работы с категориальными данными. В зависимости от типа исследования и его гипотезы категориальная переменная может выступать в роли причины (фактор, независимая переменная) или показателя (зависимая переменная). Помимо таблиц сопряжнности и анализа данных, входящих в эту таблицу, в программе Statistica имеется ещё один инструмент работы с категориальными переменными - Таблицы множественных сравнений (Multiple Response Tables).
Multiple Response Tables представляет собой таблицы множественных (или многократных) сравнений.
Используется для сравнения более двух независимых групп данных.
Пример: "влияет ли цветовое предпочтение мужчин и женщин на уровень удовлетворенности жизнью?". Объявим (впрочем, весьма условно) признаки Цвет и Пол - независимыми переменными, а Уровень удовлетворенности жизнью - зависимой переменной.
- Цвет: цветовых карточек в нашем исследовании было 5 вариантов - синий, зелёный, красный, жёлтый, фиолетовый, по 5 штук каждого варианта. Итого 25.
- Пол: М и Ж;
- На вопрос об удовлетворенности жизнью испытуемым также предлагается 4 варианта: Полностью удовлетворён, Скорее удовлетворён, Скорее не удовлетворён; Полностью не удовлетворён.
Результаты опроса оформим в виде таблицы:
Получилось 25 строк, заполненных полностью или частично. Так, 2 респондента, выбравших красные карточки и 1, выбравший жёлтую, затруднились оценить свой уровень удовлетворенности жизнью. Карточку фиолетового цвета не выбрал ни один из опрашиваемых. А 5 человек в принципе остались не опрошенными.
Откроем вкладку Statistics, выберем модуль Basic Statistics/Tables:
Выберем пункт Multiple Response Tables (Таблицы множественных сравнений). Нажмём OK:
В стартовом окне Multiple Response Tables мы видим аналог кнопки Variables (Переменные) - кнопку Specify tables (selected variables), которая позволяет указать переменные для построения сводных таблиц различного типа. Укажем наши Цвет, Пол и Уровень удовлетворенности жизнью:
Убедимся, что в графе Name of Factor (Mult. Resp. Set) верно отображены наши переменные.
Нажмём OK. Перед нами - диалоговое окно Multiple Response Tables (Таблицы множественных сравнений), открытое по умолчанию на вкладке Quick (Быстро). Здесь есть 4 кнопки:
1. Summary: Review summary tables (Резюме: Обзор сводной таблицы), Результат её нажатия - сопряжённая таблица, подобная той, что предлагается в Tables and banners (Таблицы и заголовки). Условные обозначения и интерпретация - те же.
2. Frequency table (Таблица частот). Здесь, как видно из названия, мы получаем три таблицы частот. Процесс построения таблицы частот для одной переменной называется табуляцией. Процесс построения таблицы частот для для нескольких переменных – это как раз кросс-табуляция. В нашем примере производится табуляция по переменной:
- Цвет:
- Пол
- Уровень удовлетворенности жизнью:
В таблице в первом столбце представлена Категориальная переменная (Category), под ней обозначение вариантов этой переменной, и строка Всего (Totals).
1) Count (Счёт) - частоты, с которыми встречаются различные варианты значений переменной.
2) Prcnt of Responses (Процентная доля). В базовом варианте то же, что и 3) Prcnt of Cases, т.к. на Этапе стартового диалогового окна мы установили флажок напротив пункта Count unique responses only (Ignore multiple identical responses), и теперь, как указано в верхних строчках, Identical resp. were ignored - игнорируются идентичные ответы, то есть, повторы. Prcnt of Responses - это % встречаемости каждого варианта. Например, из 17 (100%) респондентов, 7 (41,18%) это женщины, 10 (58,82%) - мужчины.
3. Detailed two-way tables (Подробные двухфакторные таблицы). Вот здесь нам потребуется вспомнить, что мы приняли признаки Цвет и Пол за независимые, а Уровень удовлетворенности жизнью - за зависимую переменную. Потому что детализация идёт по независимой переменной. В нашем примере - таблицы детализированы для переменной Цвет, поэтому для всех вариантов цветов будет построена своя таблица: отдельно для синего, зелёного, красного, жёлтого и фиолетового. Столбцы отображают разные варианты уровня удовлетворенности жизнью. И они, в свою очередь, детализированы по полу респондентов.
4. Interaction plots of frequencies (Графики частот взаимодействия) - это способ наглядного представления распределения частот при взаимодействии двух переменных. Такой график позволяет визуализировать данные из таблицы сопряжённости. В нашем примере получилась такая картинка:
Графики - отдельные для мужчин и женщин. По оси абсцисс: один из 4 вариантов переменной Уровень удоблетворённости жизнью. По оси ординат: частота их встречаемости у М и Ж. Таким образом можно наглядно показать взаимосвязь между факторами Цвет х Пол х Уровень удоблетворённости жизнью.
*Вкладка Advanced (Расширенные настройки) диалогового окна Multiple Response Tables.
Она отличается от вкладки Quick только одной кнопкой: Summary of table specifications (Краткое описание спецификаций таблицы). Нажмём её, и увидим некоторые дополнительные характеристики наших переменных, которые отображены в правом столбце - Factor, и левом - Var 1. В столбце Factor type указано Single var - числовые или строковые переменные, которые имеют ограниченное количество возможных значений (категорий). В столбце var № of Levels указаны уровни - то самое количество возможных значений переменной. Сооветственно, для Цвет = 5, для Пол = 2 и для Уровень удоблетворённости жизнью = 4.