Найти в Дзене
Рашидыч

SPSS Просто о сложном: Перекодирование переменных

Иногда требуется изменить имеющиеся данные. Для этого нет необходимости выгружать их в Excel, вносить правки и потом возвращать обратно. Тем более не надо это делать в ручном режиме.

Разберем пример. Есть массив наблюдений, состоящий их трех переменных. Пол / Возраст / Заработная плата. При чем Возраст (q2) - это порядковая переменная, то есть определенными числами закодирован возрастной диапазон.

-2

Зар.плата ( q3) - количественная переменная. Это означает, что значение переменной содержит непосредственно величину заработной платы респондента.

-3

Обратите внимание, что сейчас SPSS отображает значения переменных, но не метки. Переменная q1 для мужчин показывает 1.00, а для женщин 2. Это не всегда удобно. Для того чтобы отображались именно метки, необходимо включить эту опцию. Для этого нажимаем "Метки значений" в меню "Вид"

-4

Все цифры поменялись на метки, но на 7 строке вместо диапазона возраста видно цифру 6. Это скорее всего ошибка при вводе и вместо 5 - обозначающую возраст старше 50 лет, пользователь ввел 6. Такое встречается довольно часто. Не всегда это видно невооруженным взглядом. Поэтому всегда перед началом анализа рекомендуется проводить проверку переменных. Для этого строятся частотные таблицы.

-5

Покажем на примере переменной q2. Достаточно перенести переменную из левой в правую часть, убедится, что указа вывод таблиц и нажать OK

-6

Вывод осуществляется в другое окно, получается следующая таблица. В ней видно, сколько людей в каком возрасте приняло участие в исследовании. При этом также видно, что наряду с возрастным диапазоном есть цифра 6 и она встречается 5 раз.

-7

Это значит, что число 6 по ошибке ввели пять раз. Логично надо найти все эти ошибки и поменять 6-ку, на 5-ку. Все это позволяет реализовать команда "Перекодировать в те же переменные"

-8

Переносим переменные, которые требуется перекодировать и задаем старые и новые значения.

-9

Поэтапно создаем правила для перекодировки. В нашем случае оно всего одно 6 меняем на 5

-10

Перекодировать переменную саму в себя нужно очень осторожно, так как в этом случае. Изменяется исходная переменная и при ошибке вернуть начальные значения не получится. После того как правило добавлено, оно появится в списке. Его можно изменить, удалить или дополнить.

-11

Теперь мы возвращаемся назад в предыдущее меню, где достаточно нажать "ОК" и все изменения будут зафиксированы. Это подтвердит повторный частотный анализ.

-12

Теперь рассмотрим как можно перекодировать переменные из одной в другую и когда это необходимо. Построим частотный анализ для заработной платы - q3. Алгоритм аналогичны показанному выше, но результат совершенно другой.

-13

Получилась очень длинная таблица, где подавляющее большинство значений встречаются всего один раз. Анализировать такую таблицу в дальнейшем, например для сравнения заработной платы в разрезе возраста или / и пола просто невозможно. Поэтому часто от количественных переменных переходят к шкалам. Сегодня сделаем это в ручном режиме, а в дальнейших уроках рассмотрим как можно ранжировать переменные другим способом.

Выделим следующие диапазоны:

  1. зар.плата до 20 тыс. рублей
  2. 20 - 30 тысяч
  3. 30 - 45 тысяч
  4. более 45 тысяч

Фактически сейчас мы записали правило перекодирования. Осталось нажать нужные кнопки.

-14

После выбора перекодировки в другую переменную, сначала необходимо эту переменную создать. Задать ее имя и метку

-15

Только после этого станет активна кнопка ОК, а "q2-->?" поменяется на "q2--> q4". При создании правила целесообразно для случая зар.плата до 20 тыс. рублей использовать диапазон от наименьшего для указанного

-16

для более 45 тысяч - Диапазон от указанного до наибольшего

-17

В остальных случаях просто диапазон

-18

Далее "Продолжить" и "ОК". В списке переменных появилась новая переменная q4.

-19

Для нее рекомендуется прописать метки значений и указать что она имеет порядковый тип.

-20

Такая обработка данных о заработной плате позволит в дальнейшем делать, например, такие таблицы сопряженности

-21

В завершении рассмотрим случай, когда необходимо наоборот от порядковой переменной перейти к количественной. Это бывает крайне редко, но ... Предположим необходимо оперировать понятием абсолютный возраст. В нашем случае он задан диапазоном. Это тоже перекодирование в новую переменную, только по другим правилам.

1 означает до 18, значит все 1 грубо приравниваются к 16 годам

2 означаем от 18 до 25, значит берем среднее значение 23 года

-22

и так далее, "старше 50" пусть будет 60 лет. Переход от порядковым к количественным значениям обладает большой погрешностью, это надо понимать. Все это реализуем по аналогии с вышенаписанным

-23

Для чего необходим подобный ход ?! Как вариант для подсчёта среднего возраста отдельно у мужчин и женщин

-24

На этом тема урока исчерпана. Файл, на основе которого сделаны все примеры, можно скачать здесь.

перекодировка переменных.sav

С уважением и готовностью к сотрудничеству, Ваш профессор

P.S. Для подготовки этого материала ушло около 2-х часов. На запись видео с теми же примерами без монтажа одним дублем уйдет 10 минут. Вопрос, какой формат лучше воспринимается и стоит ли тратить время на создание подобных статей ?

#SPSS #СПСС #Excel #Статиситка

Наука
7 млн интересуются