Программа Statistica поддерживает работу с текстовыми данными, которые всегда являются категориальными. Это позволяет обрабатывать данные, анализировать их, и визуализировать результаты. Все эти действия начинаются с построения таблиц сопряжённости - кросс-табуляция. Такое приходится проводить довольно часто, и практически во всех сферах:
- Медицина. Примеры: исследование факторов риска развития врождённых пороков сердца у плода; оценка прогностической значимости клинико-инструментальных и лабораторных показателей в оценке риска развития нестабильной стенокардии и/или инфаркта миокарда для больных стенокардией напряжения III функционального класса; исследование влияния оксидативного стресса и полиморфизма гена каталазы CAT-262G/A на тяжесть течения язвенного колита.
- Биология. Пример: влияние аллельных вариантов гена выработки жёлтого А (аллельные варианты А и а) и голубого В (аллельные варианты В и b) пигмента на проявление окраски волнистого попугая.
- Психология. Пример: определение зависимости уровня успеваемости учащихся от выбранной методики преподавания; изучение взаимосвязи между способностью к рабочей памяти и уровнем внимания среди участников.
Категориальные переменные могут выступать в качестве как независимой, так и зависимой переменной. Это определяется гипотезой исследования. Одна переменьая рассматривается как фактор (причина), влияющая на исследуемое явление. Это независимая переменная. Другая — как показатель этого явления, то есть, зависимая переменная. Пример: «Уровень образования влияет на удовлетворенность работой: чем выше уровень образования, тем выше уровень удовлетворенности работой». Уровень образования выступает в качестве фактора (независимая переменная); удовлетворенность работой выступает в качестве показателя (зависимая переменная).
С кросс-табуляцией практически всегда имеют дело во время изучения взаимосвязи между социально-демографическими характеристиками (возраст, пол, образование) и определёнными ответами в опросах или поведением.
Рассмотрим именно такой пример: "влияет ли материальный уровень жизни мужчин и женщин на общую удовлетворенность этой жизнью?". Признаки Материальный статус и Пол объявим независимыми переменными, а Уровень удовлетворенности жизнью - зависимой переменной.
- Материальный статус в нашем исследовании может быть трёх вариантов: Высокообеспеченный, Среднего достатка и Малообеспеченный;
- Пол: М и Ж;
- На вопрос об удовлетворенности жизнью испытуемым предлагается веер ответов, включающий 4 варианта: Полностью удовлетворён, Скорее удовлетворён, Скорее не удовлетворён; Полностью не удовлетворён.
Результаты опроса оформим в виде таблицы:
Откроем вкладку Statistics , выберем модуль Basic Statistics/Tables:
Выберем пункт Tables and banners (Таблицы и заголовки). Нажмём OK
В стартовом окне Tables and banners мы видим аналог кнопки Variables (Переменные) - кнопку Specify tables (selected variables), которая позволяет указать переменные для построения таблиц сопряжённости (кросс-табуляции).
После нажатия кнопки Specify tables (selected variables) мы попадаем в поле ввода переменных. Для наглядности отметим все: независимые переменные-факторы - Материальный статус и Пол, и зависимую (показатель) - Уровень удовлетворённости жизнью. Нажмём OK...
Убедившись, что таблица выбрана (Number of tables: 1), нажмём OK. Перед нам появится диалоговое окно Crosstabulation Tables Results (Таблицы кросстабуляции: результат). По умолчанию оно открыто на вкладке Quick (Быстро).
Нажмём на кнопку Summary: Review summary tables (Резюме: Обзор сводной таблицы), и появляется итоговый результат - сопряжённая таблица:
Первый столбец сопряжённой таблицы - Материальный статус (сразу отдельно показаны результаты для М и Ж, что отображено во втором столбце). Видно, что, например, Уровень жизни Полностью Удовлетворён, максимален у высокообеспеченных мужчин и у женщин среднего достатка. А если не обращать внимание на Пол, то полностью удовлетворёнными у нас будут лица высокообспеченного материального статуса. Может ли это быть связано с количеством опрошенных? Посмотрим в последний столбец Row Totals (Итоговые значения по строкам), и увидим, что у нас присутствует по 10 человек в каждом уровне материального статуса, М и Ж поровну (по 5 человек) только у высокообеспеченных; среднего достатка женщин даже меньше - 4, мужчин 6. Поэтому можно сказать, что наш опрос достаточно точно показывает, что уровень удовлетворённостью жизнью максимальна при материальном статусе Высокообеспеченный. Последняя строка Column total (Итоговые значения по столбцу) показывает, сколько всего человек относится к разной градации удовлетворённости жизни. Так, 8 полностью удовлетворены, 9 скорее не удовлетворены, 10 скорее удоблетворены, и 3 полностью не удовлетворены. Всего опрошенных: 30 человек.
Тот же самый результат можно отобразить графически в виде гистограммы, нажав на кнопку Categorized histograms (Категоризированные гистограммы):
* Результат в виде сопряжённой таблицы и категоризированные гистограммы - важный промежуточный итог исследования, однако самое важное - анализ полученных данных, будет рассмотрено далее. Авансом можно отметить, что вкладка Options (Опции) предлагает ряд статистик для анализа категориальных данных: