какая команда в синтаксисе spss используется для перекодирования переменных
Иллюстрированный самоучитель по SPSS 10/11
Перекодирование значений. Ручное перекодирование.
Первоначально собранные данные можно перекодировать с помощью средств SPSS. Перекодирование численных данных необходимо, например, тогда, когда первоначальное разнообразие исходных данных не нужно для последующего анализа. В этом случае перекодирование означает уменьшение объема обрабатываемой информации. Перекодирование данных можно выполнить вручную или автоматически. Мы рассмотрим оба этих метода.
Ручное перекодирование
Для примера мы проанализируем результаты воскресного опроса (файл wahl.sav). Нас интересует процентное распределение опрашиваемых в классическом политическом спектре правые-левые. В этом случае переменную partei следует перекодировать и создать новую переменную lire (левые-правые). Новые значения будут определены следующим образом:
Сравним значения переменной partei со значениями переменной lire:
Переменная partei Значения | Метки значений | Переменная lire Значения | Метки значений |
---|---|---|---|
0 | нет данных | 0 | не определено |
1 | ХДС/ХСС | 2 | правые |
2 | СДП | 2 | правые |
3 | СДПГ | 1 | левые |
4 | Зеленые/Союз 90 | 1 | левые |
5 | ПДС | 1 | левые |
6 | Республиканцы | 2 | правые |
7 | Прочие | 0 | не определено |
Значение 1 (ХДС/ХСС) переменной partei соответствует значению 2 (правые) переменной lire, значение 2 (СДП) – значению 2 (правые), значение 3 (СДПГ) – значению 1 (левые) и т.д. Значение 0 переменной lire объявляется как отсутствующее.
Перекодирование производится следующим образом:
Можно хранить перекодированные значения в той же переменной или перенести их в другую переменную. Если мы проведем перекодировку в прежней переменной, все ее старые значения будут стерты.
Перекодирование значений
8.4. Перекодирование значений
Первоначально собранные данные можно перекодировать с помощью средств SPSS. Перекодирование численных данных необходимо, например, тогда, когда первоначальное разнообразие исходных данных не нужно для последующего анализа. В этом случае перекодирование означает уменьшение объема обрабатываемой информации. Перекодирование данных можно выполнить вручную или автоматически.
Для примера мы проанализируем результаты воскресного опроса (файл wahl.sav). Нас интересует процентное распределение опрашиваемых в классическом политическом спектре правые-левые. В этом случае переменную partei следует перекодировать и создать новую переменную lire (левые-правые). Новые значения будут определены следующим образом:
Сравним значения переменной partei со значениями переменной lire:
Переменная partei Значения
Переменная lire Значения
Значение 1 (ХДС/ХСС) переменной partei соответствует значению 2 (правые) переменной lire, значение 2 (СДП) значению 2 (правые), значение 3 (СДПГ) значению 1 (левые) и т.д. Значение 0 переменной lire объявляется как отсутствующее.
Перекодирование производится следующим образом:
Загрузите файл wahl.sav в редактор данных.
Выберите в меню команды Transform (Преобразовать) Recede (Перекодировать)
Можно хранить перекодированные значения в той же переменной или перенести их в другую переменную. Если мы проведем перекодировку в прежней переменной, все ее старые значения будут стерты.
Выберите в подменю пункт Into Different Variables. (В другие переменные). Откроется диалоговое окно Recede into Different Variables (Перекодировать в другие переменные).
Рис. 8.5: Диалоговое окно Recede into Different Variables
Список исходных переменных содержит переменные файла данных. Здесь можно выбрать одну или несколько переменных для перекодирования. Если выбираются несколько переменных, все они должны быть одного типа.
Введите в поле Label обозначение: «Политический спектр». Подтвердите ввод, щелкнув на Change.
Чтобы установить значения, которые следует перекодировать, щелкните на кнопке Old and New Values. (Старые и новые значения). Откроется диалоговое окно Recede into Different Variables: Old and New Values.
Для осуществления каждого перекодирования надо указать значение или диапазон входной переменной и соответствующее значение выходной переменной. Перекодирование завершается щелчком на кнопке Add.
Это диалоговое окно разделено на следующие части. В группе Old Value (Старое значение) можно выбрать один из следующих вариантов:
Рис. 8.6: Диалоговое окно Recede into Different Variables: Old and New Values
Value: Вводится отдельное значение.
System missing (Системное пропущенное): С помощью этой опции значение входной переменной обозначается, как системное пропущенное. Это значение обозначается в списке значений переменных как SYSMIS. Такой вариант неприменим для строковых переменных.
System- or user-missing (Пользовательские или системные пропущенные): Эта опция служит для обозначения всех пользовательских или системных пропущенных значений. В списке значений переменных пользовательские пропущенные значения отображаются как MISSING.
Range through (Дипазон): Здесь можно задать замкнутый интервал значений. Этот вариант неприменим для строковых переменных.
Range: Lowest through (Диапазон: от наименьшего до): В этом случае будут перекодированы все значения от наименьшего наблюдаемого до указанного. Этот вариант неприменим для строковых переменных.
Range: through highest (Диапазон: до наибольшего): В этом случае будут перекодированы все значения от указанного до наибольшего наблюдаемого. Этот вариант неприменим для строковых переменных.
All other values (Все остальные значения): Эта опция касается всех еще не указанных значений. В списке значений переменных они отображаются как ELSE.
В группе New Value (Новое значение) можно выбрать один из следующих вариантов:
Value: Здесь вводится новое значение.
System missing (Системное отсутствующее): Эта опция служит для обозначения значения выходной переменной как системного отсутствующего значения. Значение появляется в списке значений переменных в виде SYSM1S. Этот вариант неприменим для строковых переменных.
Copy old value(s) (Копировать старые значения): Значения входной переменной сохранятся без изменений.
Если новые выходные переменные являются строковыми, следует установить флажок Output variables are strings (Выходные переменные являются строками). Теперь выполните следующие действия:
Введите старые и новые значения согласно следующей таблице:
При этом старое значение вводите в поле Value в группе Old Value, новое значение в поле Value в группе New Value и щелкайте на кнопке Add.
Чтобы перекодировать старые значения 0 и 7, выберите опцию All other values. Введите 0 в поле Value в группе New Value и щелкните на кнопке Add.
Щелкните на кнопке Continue, а затем на ОК. Новая переменная lire будет добавлена в файл wahl.sav.
Примечание: Выбранные опции соответствуют следующему командному синтаксису:
В редакторе данных дважды щелкните на lire, чтобы перейти в редактор вида переменных.
Установите следующие параметры: тип переменной численный, ширина 1, десятичные разряды 0. Укажите следующие метки значений:
Объявите нуль как пропущенное значение.
В заключение выполните частотный анализ переменной lire. Вы получите следующий результат:
Осваиваем синтаксис
Оглавление
Обзор методических материалов
Учебники
Raynald Levesque является автором книги SPSS Programming and Data Management (Программирование и управление данными в SPSS). Несколько первых изданий книги выпущены корпорацией SPSS. Теперь книга выпускается IBM без соавторства Рейналя. Здесь вы найдёте её описание и содержание. Вы можете загрузить бесплатную версию издания в формате pdf, включая примеры данных и синтаксиса.
Следующие издания опубликованы учебным отделом SPSS. Стоимость каждой из них (была когда-то) 99 долларов США:
Я не видел первой книги и никак не могу её прокомментировать. Однако, вторую нахожу очень хорошей. Вот главы этой 154-страничной книги в пружинном переплёте:
Стандартное Справочное руководство по синтаксису также является полезным источником, но его ценность возрастает с опытом и знаниями пользователя… Прочие учебники когда-то были доступны на веб-сайте SPSS. Вероятно, можно попытаться как-то получить их через IBM.
Предпосылки и принципы использования синтаксиса
Давайте создадим наш первый синтаксис:
Для подробного описания того, как пользоваться окном синтаксиса, журналом SPSS, записываемым в отдельный файл и выводимым в окно результатов, см. страницу Syntax Editor Window на веб-сайте Центрального университета Мичигана
Вот содержание того файла, который мы только что сделали:
Полезность синтаксиса сложно переоценить. Чем больше вы используете SPSS, тем чаще синтаксис будет заменять работу с меню.
Допустим, некая Мария Геннадьевна копается с меню чтобы осуществить кое-какие преобразования с данными по объёмам продаж, добавить метки переменных и значений и произвести примерно 50 различных процедур обработки. После того, как она закончит с этой работой, сценарии развития ситуации могут быть такими, например:
a) Начальник Марии Геннадьевны сочтёт результаты столь интересными, что…
— попросит проделать такой же анализ, но по отдельным филиалам
— прикажет отныне проводить такой анализ еженедельно
b) данные по продажам за некоторые периоды были пропущены (или неправильно введены), и теперь надо переделать анализ.
Если все свои операции до этого Мария Геннадьевна сохранила в файле синтаксиса, ей потребуется на переделку примерно 2-3% от того времени, которое она затратила бы, переделывая анализ «вручную» (пользуясь меню). Очевидно, таким образом, что синтаксис ведёт к громадному увеличению производительности и экономии времени.
Даже если Мария Геннадьевна и не сохранила всё в файл синтаксиса, она может этот синтаксис восстановить из отдельно ведущегося файла журнала. См страницу Syntax Editor Window на веб-сайте Центрального университета Мичигана, если не знаете, как это сделать.
Прочие преимущества использования файлов синтаксиса:
Список рассылки SPSSX-L
Разумеется, хороший способ изучения синтаксиса — посмотреть на уже готовые решения. Просматривайте их, даже если они не кажутся вам полезными в настоящее время.
Упражнения
Манипуляция строками (см. также Поэлементный разбор и маркировка данных)
Разберём здесь синтаксис Упражнение по преобразованию строк.SPS. Выполним последовательно следующие операции:
Сначала создадим пример набора данных.
При выполнении команды DATA LIST SPSS сообщает, что:
Data List will read 1 records from the command file
Это означает, что команда DATA LIST будет понимать следующее за ней содержание в файле синтаксиса (набор данных между командами BEGIN DATA. END DATA ) как наблюдения, состоящие из одной записи (одной строчки). Можно для себя отметить, что вообще-то команда DATA LIST может читать и более сложные структуры данных, например, состоящие из нескольких записей/строк на одно наблюдение.
Система также выводит информацию о координатах начала и окончания данных, относимых к каждой из читаемых переменных:
Variable Rec Start End Format
Результат выполнения команды LIST :
Определим имена и метки переменных, которые будут содержать «исправленные» строки:
1. Удаляем ведущие нули
2. Заменим точки «.» на запятые «,»
Это выглядит довольно просто. Три строчки кода и все точки (или другие символы) заменены. Но захотите ли вы использовать такое же решение для замены точек в 400 переменных? См. решение в Упражнениях по макросам.
1.5.3. Перекодирование переменных
Перекодирование переменных служит для трансформации значений переменных с созданием или без создания новых переменных, а также для автоматического кодирования текстовых переменных для преобразования их к числовому виду.
1.5.3.1. Перекодирование внутри одной переменной
Рекомендуется производить перекодирование значений многовариантных переменных (точнее, наборов дихотомий, как было показано в разделе 1.4.2) сразу после создания базы данных. При этом все пропущенные значения (вариант не отмечено) в таких вопросах следует перекодировать из System Missing в нули. В дальнейшем это позволит использовать данные дихотомические переменные (уже с двумя вариантами ответа: 0 и 1) при проведении статистического анализа (например, при построении перекрестных распределений). Альтернативой обработки многовариантных переменных является формирование серии полноценных одновариантных переменных путем кодирования всех возможных взаимодействий между вариантами ответа на многовариантный вопрос. Очевидно, что такая методика подходит только для вопросов с небольшим количеством вариантов ответа.
Перекодирование может осуществляться как внутри одной уже существующей переменной, так и с созданием новой переменной, содержащей перекодированные значения. В последнем случае исходная переменная будет содержать неперекодированные значения, а вновь созданная — перекодированные значения.
Рассмотрим методику перекодирования внутри одной существующей переменной (без создания новой). В качестве примера возьмем случай с многовариантным вопросом Где Вы обычно покупаете кетчуп?, у которого есть четыре варианта ответа:
При этом выбор респондентом данных пунктов закодирован в базе данных как 1, а отсутствие выбора — значением System Missing (отражается символом,). Произведем перекодирование отсутствующих значений System Missing в нули.
Вызов диалогового окна перекодировки внутри одной переменной осуществляется при помощи меню Transform ► Recode ► Into Same Variables. Открывшееся диалоговое окно, как и большинство других окон SPSS, в левой области содержит список всех доступных переменных, а в правой (имеющей метку Variables) — место для помещения перекодируемых переменных. Необходимо особо подчеркнуть, что за один цикл использования диалогового окна Recode into Same Variables можно перекодировать сколько угодно переменных, но только одними и теми же кодами. Иными словами, нельзя в одной переменной нули заменить на единицы, а в другой — шестерки на строки Шесть. Для этого придется сначала перекодировать первую переменную (нули на единицы), а затем вновь вернуться в диалоговое окно Recode into Same Variables, щелкнуть на кнопке Reset и затем ввести данные для перекодировки другой переменной.
В нашем случае мы собираемся перекодировать четыре переменные, имеющие одинаковые унарные шкалы, состоящие всего из одного значения 1. Поэтому в описываемом диалоговом окне можно ввести их одновременно в область Variables (рис. 1.20).
Рис. 1.20. Диалоговое окно Recode into Same Variables
При щелчке на кнопке If вызывается диалоговое окно, по внешнему виду и по функциям аналогичное окну Select Cases: If, представленному на рис. 1.16. Из этого окна молено производить перекодирование переменных, помещенных в область Variables, не для всех респондентов, а только для конкретных групп (например, только для мужчин).
В нашем случае мы не будем ставить никаких условий. Щелкните на кнопке Old and New Values, которая открывает диалоговое окно, позволяющее задать перекодируемые значения (рис. 1.21). Это окно разделено на две части. В левой можно указать, какие конкретно значения подлежат перекодировке, а в правой — в какие значения они будут перекодированы. Чтобы указать конкретное значение для перекодировки, введите исходное значение в левое поле Value, а конечное значение — в правое поле Value.
Для специальных значений System Missing есть специальный одноименный параметр. В нашем примере в левой области диалогового окна выберите пункт System Missing, а в правой — в поле Value введите 0. Далее щелкните на кнопке Add, чтобы добавить указанное сочетание в список перекодировки. (Необходимо особо отметить, что значения, не указанные в списке перекодировки, оставляются неизменны.)
Рис. 1.21. Диалоговое окно Old and New Values
1.5.3.2. Перекодирование с образованием новых переменных
Рассмотрим теперь другой случай перекодирования переменных, в результате которого исходная переменная остается неизменной, а перекодированные значения отражаются в новой переменной. Данная процедура осуществляется при помощи меню Transform ► Recode ► Into Different Variables. Диалоговое окно Recode into Different Variables (рис. 1.22) аналогично окну Recode into Same Variables (рис. 1.20), только добавлена дополнительная область Output Variable, предназначенная для указания имени (Name) и метки (Label) вновь создаваемой переменной, которая будет содержать перекодированные значения.
В качестве примера мы взяли переменную ql6, содержащую ответы на вопрос относительно частоты покупок респондентами плавленого сыра. При этом опрошенные должны были выбрать один из восьми вариантов:
2. 3-4 раза в неделю;
3. 1-2 раза в неделю;
5. реже 1 раза в месяц;
8. затрудняюсь ответить.
После перекодирования мы должны получить переменную ql6_rec, в которой интервалы 1,2 и 3 будут объединены в группу с кодом 1 (Частые покупатели); интервалы 4, 5, 6 и 7 — в группу с кодом 2 (Редкие покупатели); а интервал 8 — в значения System Missing.
Рис. 1.22. Диалоговое окно Recode into Different Variables
Введите в соответствующие поля название и метку новой переменной. Обратите внимание, что в описываемом диалоговом окне также есть кнопка условного отбора данных If. Откройте диалоговое окно Old and New Values, щелкнув на одноименной кнопке (рис. 1.23).
Рис. 1.23. Диалоговое окно Old and New Values
Это окно напоминает окно, представленное на рис. 1.21, но в нем также содержатся некоторые дополнительные полезные инструменты. По умолчанию значения исходной переменной, не указанные в списке перекодировки, не попадают в новую переменную. Изменить данное условие по умолчанию можно при помощи параметра Сору old value(s). Также появилась возможность конвертации числовых значений в строковые (параметр Output variables are strings). При этом изменится тип всей новой переменной; следовательно, все исходные значения должны быть перекодированы как
Строковые. Существует и обратная возможность — конвертации строковых значений, похожих на цифры, в числовой вид (например, «5» в 5). Данная возможность реализуется при помощи параметра Convert numeric strings to numbers.
В нашем случае мы при помощи параметра Range перекодировали значения исходной переменной — от 1 до 3 — в 1, от 4 до 7 — в 2, а значение 8 — в System Missing. После щелчков в соответствующих диалоговых окнах на кнопах Continue и ОК будет создана новая переменная ql6_rec, содержащая перекодированные по указанной схеме значения переменной ql6.
1.5.3.3. Автоматическое перекодирование
Данная процедура предназначена для автоматического кодирования полей анкеты числовыми значениями типа индекс. В маркетинговых исследованиях эта процедура применяется в основном для текстовых полей в тех случаях, когда в анкете есть либо открытые вопросы (являющиеся текстовыми переменными в базе данных), либо варианты ответа Другое с дополнительным полем для указания респондентом конкретного варианта.
При выполнении процедуры одинаковые ответы из текстовых полей группируются, и им присваиваются соответствующие коды ответа (например, начиная с 1). Для того чтобы автоматическое перекодирование имело практический смысл, необходимо жестко формализовать ответы респондентов в текстовых полях. Если при заполнении анкет допускалась свободная формулировка респондентами своих ответов, следует перед вводом анкет в компьютер (или на этапе ввода) переформулировать их в соответствии с требованиями формализации. Меньшее количество различных вариантов ответа на открытый вопрос является предпочтительным, так как в дальнейшем при построении распределений большое число категорий трудно читается на графиках и в таблицах. Еще одно существенное требование к ответам респондентов на открытые вопросы — это достаточное количество респондентов в каждой группе ответов. Варианты ответов, указанные малым числом опрошенных, обычно относятся к варианту Другое.
Диалоговое окно Automatic Recode (рис. 1.24) вызывается при помощи меню Transform ► Automatic Recode. В нашем примере мы задавали респондентам вопрос Какие марки глазированных сырков Вы знаете?. После списка основных конкурентов на данном рынке в анкете был вариант ответа Другое (переменная q9_13t), в который записывались компании-производители, не вошедшие в данный перечень. Закодируем эти марки числовыми значениями (вместо текстовых полей). Для этого следует перенести из левого списка всех доступных переменных интересующую нас текстовую переменную q9_13t в область Variable ► New Name и в соответствующем поле указать новое имя вновь создаваемой числовой переменной q9_13t_n. Затем, чтобы подтвердить преобразование, необходимо щелкнуть на кнопке New Name. В группе переключателей Recode Starting from есть два параметра, позволяющие присвоить номера вариантам ответа либо по алфавиту, начиная с самого малого значения (Lowest value), либо начиная с конца упорядоченного списка вариантов ответа (Highest value).
После щелчка на кнопке ОК и выполнения указанных преобразований в базе данных будет создана новая числовая переменная (q9_13t_n) с вариантами ответа согласно списку перекодировки. Список также выводится SPSS (в окне SPSS Viewer), он показан на рис. 1.25.
Рис. 1.24. Диалоговое окно Automatic Recode
Рис. 1.25. Список перекодировки
Как видно на рисунке, список разделен на три части: слева находятся значения исходной переменной (q9_13t); в среднем столбце расположены коды, под которыми данные текстовые значения представляются в новой переменной (q9_13t_n); правый столбец дублирует левый. Теперь по вновь созданной числовой переменной можно строить графики, а также использовать ее в других статистических процедурах.
Приложение 1.1. Основы работы в SPSS
Как мы уже писали, в задачи нашего учебника не входит подробное обсуждение работы в SPSS, однако, чтобы читатель, незнакомый с этим статистическим пакетом, мог выполнять предлагаемые нами упражнения и задания, остановимся на базовых элементах этой программы.
Главное рабочее окно программы организовано в виде матрицы данных (рис. П1(1)).
Рис. П1.1(1). Окно данных в SPSS
Пример П1.1(2) Организация ввода данных исследования в SPSS
Проведено тестирование уровня ситуативной и личностной тревожности 10 студентов (5 мужчин и 5 женщин). В результате тестирования у каждого испытуемого был рассчитан итоговый балл ситуативной и личностной тревожности. Чем выше балл, тем более выражен тот или иной вид тревожности, максимально возможный балл равнялся 30. Также исследователи регистрировали пол и возраст испытуемых. Помимо этого, студентам задавался следующий вопрос: «Насколько часто Вы волнуетесь перед экзаменами?». Испытуемые должны были обвести один из вариантов ответа: «Почти никогда», «Редко», «Иногда», «Часто/почти всегда».
Полученные в ходе исследования результаты представлены в таблице П1(3).
Таблица П1.1(3). Данные исследования личностной и ситуативной тревожности.
№ | Имя | Пол | Возраст | Ответ на вопрос “Как часто я волнуюсь перед экзаменом?” | Ситуативная тревожность | Личностная тревожность |
1 | Н.И. | Женский | 20 | Часто/почти всегда | 20 | 26 |
2 | К.Л. | Мужской | 18 | Почти никогда | 18 | 16 |
3 | П.Д. | Мужской | 18 | Иногда | 15 | 20 |
4 | У.Р. | Женский | 18 | Часто/почти всегда | 17 | 21 |
5 | И.К. | Мужской | 19 | Редко | 19 | 17 |
6 | Т.К. | Женский | 20 | Редко | 17 | 18 |
7 | А.Н. | Женский | 21 | Иногда | 21 | 19 |
8 | Г.М. | Мужской | 21 | Почти никогда | 10 | 19 |
9 | В.Н. | Женский | 19 | Иногда | 19 | 18 |
10 | Л.Н. | Мужской | 20 | Иногда | 20 | 20 |
Рассмотрим, как корректно ввести полученные результаты в SPSS. При открытии программы появляется пустая таблица данных. Перед вводом данных необходимо разобрать, какие переменные включены в исследование и как их оптимально закодировать для ввода в SPSS. Выделим переменные в нашем исследовании: две переменные, измеренные в номинативной шкале: имя испытуемых и пол; ответ на вопрос анкеты (шкала порядка) и три интервальные шкалы: возраст, ситуативная тревожность, личностная тревожность. Следовательно, в нашей таблице будет 6 столбцов.
На закладке Представление Переменные (Variable View) можно задать имена переменных в первом столбце, озаглавленном Имя (Name). В названиях переменных можно использовать буквы латиницы или кириллицы [2] и цифры, запрещены пробелы и знаки препинания (допустимо использовать нижние подчеркивания и точки). Еще одно требование к названию переменной в SPSS — первый символ не должен быть цифрой. Сразу после ввода переменной на листе появляются ее данные, настроенные по умолчанию: тип переменной, длина переменной (максимальное количество знаков), метка переменной (этот столбец по умолчанию пуст), значение, пропуски, колонки, выравнивание, шкала. После ввода названия переменной можно определить другие ее свойства. В столбце Тип (Type) можно выбрать тип данных. По умолчанию новая переменная имеет числовой формат (Numeric), однако можно указать и другие: числовой с запятой-разделителем, отделяющий десятые и сотые доли, с точкой-разделителем, научное обозначение, дату, доллары и иную валюту и текстовую строку. В практике психологических исследований, как правило, достаточно первого и последнего варианта: числового и текстового. В нашем случае переменная Имя является текстовой, поэтому для нее тип данных нужно изменить на Текстовая (String).
Следующий показатель — Ширина (Width), количество символов в переменной, ее можно варьировать, если данные (например, текст), не умещаются в ячейке.
Четвертый столбец — Знаков после запятой (Decimals) — количество отображаемых у числовых переменных знаков после запятой (при изменении этого свойства меняется именно отображение числа, округления в расчетах не происходит).
Пятый столбец — Метка (Label) — название переменной в исследовании. Здесь может быть указано любое название или пояснение к переменной без ограничений в символах — в том виде, в каком оно будет представлено в таблицах после обработки данных. Это поле необязательно для заполнения, но мы рекомендуем использовать его для более полного и читаемого обозначения переменных, что упрощает форматирование результатов расчетов и делает более понятной саму таблицу данных. Впишем более подробные названия переменных в столбец (рис. П1(4)).
Рис. П1.1(4). Заполненное окно описания данных
В следующем столбце — Значения (Value) — для переменных, измеренных в номинативной шкале, можно указать, какие обозначения для разных уровней переменной были использованы в исследовании. В нашем случае в номинативной шкале выражен показатель Пол (мужской/женский). Показатель Анкета в зависимости от целей и задач исследования можно считать порядковым (мы предполагаем, что ответы «Часто/почти всегда», «Иногда», «Редко», «Почти никогда» выстраиваются в линейную последовательность) и будем кодировать их натуральными числами от 1 до 4.
Чтобы присвоить значения переменной Пол, поставим курсор на вторую строку в столбце Значения и нажмем на многоточие. В появившейся таблице нужно указать числовое значение и его содержание и нажать на кнопку Добавить. Мы будем обозначать женский пол цифрой «1», мужской пол — цифрой «2». Введем эти обозначения в диалоговое окно. Теперь как в таблице данных, так и в таблицах результатов можно будет увидеть словесное обозначение группы испытуемого, а не только ее номер.
На остальных параметрах переменных мы пока останавливаться не будем. Подробную информацию о них можно найти в специальных пособиях по использованию SPSS.
Вернемся к таблице данных, нажав на закладку Представление Данные (Data View) внизу рабочего окна. На листе данных появились названия переменных. Теперь мы можем ввести данные (рис. П1(5)). (После ввода каждого значения в соответствующую клетку можно нажать клавишу Enter или любую стрелку на клавиатуре.)
Рис. П1.1(5). Заполненная таблица данных
После того как данные исследования полностью введены в программу, можно приступать к обработке полученных результатов — проводить различные расчеты, строить диаграммы и т.п.
Мы можем сохранить файл данных с помощью соответствующего пункта меню Файл (File), а затем использовать этот и другие файлы для последующей работы.
Далее, мы предлагаем читателю самостоятельно выполнить задание, подобное описанному выше.
Упражнение П1.1(6). В таблице П1.1(7) представлены показатели эмоционального интеллекта в трех группах испытуемых (будем считать, что это интервальная шкала). Введите результаты эксперимента в SPSS.
Таблица П1.1(7). Данные исследования эмоционального интеллекта у испытуемых с истерическим расстройством
Номер испытуемого | Балл по шкале «Эмоциональная осведомленность» | Балл по шкале «Распознавание эмоций других людей» |
Здоровые испытуемые | ||
1 | 4 | 6 |
2 | 6 | 5 |
3 | 6 | 3 |
4 | 3 | 2 |
5 | 4 | 2 |
Испытуемые с истерическим расстройством | ||
6 | 6 | 5 |
7 | 7 | 4 |
8 | 3 | 5 |
9 | 4 | 6 |
10 | 3 | 5 |
Испытуемые с шизодидным расстройством | ||
11 | 3 | 4 |
12 | 5 | 2 |
13 | 2 | 5 |
14 | 6 | 3 |
15 | 2 | 4 |
Статистическая обработка данных в SPSS
После ввода данных мы можем приступить к их статистическому анализу. Опишем общую схему проведения такого анализа в SPSS. Для вызова различных процедур по статистической обработке данных нужно зайти в меню Анализ (Analyze). В разделах этого меню содержатся пункты по вызову различных процедур обработки данных (рис. П1(8)). При выборе каждого из них появляется соответствующее методу диалоговое окно, в котором необходимо задать параметры проводимого анализа. В каждом виде анализа эти параметры могут быть самыми различными, однако принцип заполнения диалогового окна может быть описан в достаточно общем виде.
Рис. П1(8). Меню процедур статистического анализа
Количество статистических процедур, реализованных в SPSS, достаточно велико, в рамках нашего учебника мы рассмотрим только некоторую их часть. Основной целью этого приложения является описание техники проведения статистического анализа в SPSS в самом общем виде на материале простого примера.
Пример П1(9). Процедура статистического анализа в SPSS
Первая задача, которую можно решить с помощью SPSS — это расчет описательной статистики [4] времени, затрачиваемого на письмо одной буквы на двух языках. Для этого необходимо войти в пункт Анализ, в нем выбрать пункт Описательные статистики и в подменю выбрать пункт «Описательные». Подобные последовательности действий с пунктами меню мы будем далее обозначать следующим образом:
Анализ — Описательные статистики — Описательные (Analyze — Descriptive statistics — Descriptives).
После этого на экране появится диалоговое окно расчета описательной статистики. Исходный вид окна изображен на рис. П1.1(10).
Рис. П1.1(10). Окно выбора переменных и установки параметров расчета описательной статистики
Рис. П1.1(11). Диалоговое окно для ввода дополнительных параметров процедуры расчета описательной статистики в SPSS
Помимо среднего значения, по умолчанию рассчитываются минимальное и максимальное значения выбранных переменных, а также их стандартное отклонение. В рамках этого примера мы предлагаем не рассчитывать стандартное отклонение, минимум и максимум, нужно снять отметки рядом с этими параметрами. Любознательный читатель может выбрать другие параметры, поэкспериментировать с настройками, мы же обсудим наиболее простой вариант.
Такие меню настройки дополнительных параметров есть практически в каждой разновидности статистического анализа, представленного в SPSS. За подробной и исчерпывающей информацией читатель может обратиться к специализированным книгам по SPSS. В рамках этой книги при описании различных расчетов, проводимых в SPSS, мы будем указывать на параметры, имеющие наибольшую важность при базовом освоении темы.
После установки дополнительных настроек можно нажать кнопку Продолжить (Continue), чтобы вернуться к основному диалоговому окну. Далее, для проведения расчетов и получения результата следует нажать кнопку ОК. Результаты расчетов будут выведены в отдельное окно Вывода (Output). Результаты дальнейших расчетов будут выводиться в это же окно в порядке выполнения различных процедур. При необходимости все результаты могут быть сохранены в отдельном файле или импортированы в различные форматы (MsWord, html и т.д.)
Рассмотрим полученные результаты (таблица П1.1(12)).
Таблица П1.1(12). Описательные статистики
Описательные статистики | ||
N | Среднее | |
Average time of writing a letter in Russian | 31 | 3 931.04 |
Average time of writing a letter in Finnish | 31 | 2 639.32 |
N валидных (по списку) | 31 |
В таблице столбец N содержит информацию о количестве испытуемых, далее идут столбцы, содержащие средние выбранных переменных. Как видно из результатов, среднее время написания буквы на русском составило 3931 мс, а на финском — 2639 мс. Таким образом, можно сделать вывод о том, что скорость письма у детей-второклассников на финском оказывается выше скорости письма на русском. Насколько эти различия заметны и отличимы от случайных колебаний можно определить с помощью специальных статистических критериев, о которых идет речь в основной части учебника.
Если нас интересует сравнение средних значений времени написания букв на двух языках у детей с разными доминантными языками и мы хотим оценить, насколько доминантность языка влияет на скорость письма, то необходимо ввести группирующую переменную. В рассматриваемом наборе данных переменная group обозначает принадлежность испытуемого к той или иной группе. Значения группирующих и других так называемых независимых переменных так или иначе контролируются исследователем при организации и проведении исследования. В данном случае мы отбирали детей таким образом, чтобы среди них было примерно равное число детей с доминантным русским и финским языками. Те переменные, на которые могут влиять независимые переменные, называются зависимыми. В нашем примере это среднее время написания буквы.
Рассмотрим, как в SPSS можно рассчитать средние значения для групп испытуемых, определенных с помощью такой группирующей переменной. Для этого надо выбрать в меню последовательность Анализ — Сравнение средних — Средние (Analisys — Compare means — Means). В появившемся диалоговом окне для проведения расчетов необходимо выделить зависимые и независимые переменные. Заполненное окно изображено на рис. П1.1(13).
Рис. П1.1(13). Заполненное диалоговое окно для сравнения средних
После нажатия кнопки ОК в окне вывода появляется новая таблица с результатами расчета средних для групп испытуемых (таблица П1.1(14)).
Таблица П1.1(14). Сравнение средних значений двух переменных
group of bilinguals | Average time of writing a letter in Russian | Average time of writing a letter in Finnish | |
Russian dominant biliguals | Среднее | 3 530,67 | 2 533,73 |
N | 16 | 16 | |
Finish dominant biliguals | Среднее | 4 358,10 | 2 751,94 |
N | 15 | 15 | |
Всего | Среднее | 3 931,04 | 2 639,32 |
N | 31 | 31 |
Как видно, эта таблица организована несколько сложнее, чем предыдущая. В ней приведены средние значения показателей времени написания буквы как для всей выборки в целом (последние две строчки), так и для двух групп испытуемых по отдельности. Полученные результаты позволяют заметить, что между группами имеются различия в скорости письма, причем доминантность языка приводит ускорению письма: на русском относительно быстро пишут дети с русским доминантным языком, а при письме на финском — наоборот, дети с доминантным финским.
Еще один важный аспект анализа данных, на котором нужно остановиться, описывая основные функции SPSS — это визуализация данных, их графическое отображение. В SPSS есть возможность создавать разнообразные графики, сейчас мы приведем несколько простейших примеров, чтобы у читателя сложилось общее представление о способах графического отображения различных параметров имеющихся данных.
Рассмотрим общий принцип построения диаграмм в SPSS на примере уже описанных данных. Допустим, мы хотим графически отобразить различия во времени написания буквы на двух языках отдельно у детей с доминантным русским и финским языками, т.е. визуализировать приведенную выше таблицу.
Для отображения графиков в SPSS нужно открыть пункт меню Графика (Graphics). Затем можно действовать двумя способами: либо использовать появившийся в сравнительно поздних (начиная с 15-й) версиях конструктор диаграмм (Chart Builder), либо выбрать нужный тип диаграммы в подменю Устаревшие диалоговые окна (Legacy Dialogs). Мы будем описывать наиболее простой и удобный способ в зависимости от задачи.
Рис. П1.1(15). Диалоговое окно выбора типа столбиковой диаграммы
В нашем примере проще нарисовать график распределения возрастов с помощью последовательности Графика — Устаревшие диалоговые окна — Столбцы — Кластеризованные (Legacy Dialogs— Bar — Clastered). В качестве исходных данных зададим Итоги по отдельным переменным (Summaries of separate variables) (рис. П1.1(15)).
После нажатия кнопки Задать (Define) появится диалоговое окно построения диаграммы. Такие окна в SPSS устроены по тому же принципу, что и окна задания параметров статистических процедур: слева приведен список всех переменных, имеющихся в таблице данных, а в правой части — поля для ввода тех переменных, значения которых будут отображены в диаграмме. В данном случае нам необходимо заполнить поле Столбики представляют (Bars Represent) — туда надо перенести две переменные, содержащие показатели времени написания буквы, и поле Категориальная ось (Category Axis) — в него надо внести переменную Group. При переносе переменных в первое поле по умолчанию будет отображаться среднее значение внесенных переменных. При необходимости можно изменить тип рассчитываемой статистики: если нажать кнопку Изменить Статистику (Change Statistics), то появится дополнительное окно, где можно выбрать другие параметры: медиану, стандартное отклонение и др.
После нажатия кнопки ОК в окне вывода появится диаграмма, изображенная на рис. П1.1(16).
Рис. П1.1(16). Столбиковая диаграмма средних значений времени написания одной буквы на русском и финском языках в двух группах испытуемых
На этом графике достаточно хорошо видно, что время написания буквы на русском меньше в группе детей с доминантным русским языком, а на финском они пишут букву в среднем немного дольше, чем их сверстники с доминантным финским языком. При этом также можно отметить, что в целом время письма на финском меньше, чем на русском.
В данном случае диаграмма, как мы уже говорили, является практически прямым отображением рассчитанной выше таблицы средних, поэтому никакой новой информации из нее мы не извлечем. Однако такое наглядное представление данных в некоторых случаях бывает более удобным. Кроме того, достаточно часто построение диаграмм может дать некоторую дополнительную информацию о данных.
В SPSS можно строить как такие простые графики, так и намного более сложные диаграммы, которые позволяют более полно оценить и проинтерпретировать результаты, получаемые при применении различных статистических критериев. В тексте учебника по мере обсуждения решения тех или иных задач методами математической статистики мы кратко описываем способы построения разнообразных диаграмм средствами SPSS.
Еще одна важная процедура, которая часто используется при обработке данных, — это преобразование переменных и расчет новых параметров на основании имеющихся данных. Так, например, в нашем случае можно рассчитать разность времени написания одной буквы для каждого участника исследования. Для подобного рода расчетов в SPSS надо выбрать последовательность Преобразование — Вычислить переменную (Transform — Compute). После этого появляется диалоговое окно, в котором надо ввести имя новой рассчитываемой переменной в поле Целевая переменная (Target variable), а также формулу вычисления переменной в поле Числовое выражение (Numeric expression). Формула может быть и очень простой, и достаточно сложной, в нее можно включать имеющиеся переменные, а также использовать различные встроенные функции SPSS из списка Функции и специальные переменные (Functions and special variables) в правой части диалогового окна (например, функцию логарифмирования, извлечения квадратного корня, генерации случайных чисел и т.п.). В нашем случае формула расчета будет достаточно проста: нам надо из среднего времени написания буквы на русском вычесть среднее время написания буквы на финском: WritingLetRus − WritingLetFin. Новую переменную можно назвать diffWritingLet. Заполненное окно приведено на рис. П1.1(17).
Рис. П1.1(17). Диалоговое окно для задания вычисления новой переменной
После нажатия кнопки ОК в таблице данных появится новая переменная diffWritingLet, рассчитанная по введенной формуле, ее можно также подвергать статистическому анализу. Таким образом, данная процедура позволяет манипулировать с данными, вводя новые переменные, производные от имеющихся данных.
Упражнение П1.1(18). В файле WritingSkills.sav приведены результаты исследования письма у детей, учащихся первого и второго классов. В качестве экспериментального задания им давали списать небольшой текст. В качестве показателей уровня развития навыка письма регистрировались два показателя — время выполнения заданий в секундах и количество допущенных при письме ошибок. Файл данных, таким образом, содержит три показателя: класс, в котором обучался испытуемый (переменная group), время выполнения задания (переменная time) и количество допущенных ошибок (переменная mistakes).
В заключение ещё раз подчеркнем, что приведенное в данном учебнике описание не является полным и в целях углубления знания статистического пакета SPSS читатель может обратиться к более специализированным источникам. Перечислим некоторые из них:
Наследов Д.А. IBM SPSS Statistics 20 и AMOS: профессиональный статистический анализ данных. — Издательский дом «Питер», 2012.
Бююль А., Цёфель П. SPSS. Искусство обработки информации, Москва, Diasoft, 2005
Из зарубежных источников мы можем порекомендовать следующие книги:
[1] Так как в настоящее время в нашей стране одинаково распространены английская и русифицированная версия программы, мы будем приводить русский вариант, а затем, в скобках, давать английский аналог. Перевод на русский язык может меняться в зависимости от версии программы, мы приводим перевод для версии 23. Снимки экрана и таблицы расчетов мы будем давать только в русской версии.
[2] Технически допустимо использование кириллицы в названиях переменных, однако по нашему опыту это в непредсказуемые моменты может приводить к сбоям в выводе результатов. Поэтому мы рекомендуем использовать только латиницу.
[3] Более подробное описание этого исследования и его результатов можно найти, например, в статье: Корнеев А.А., Протасова Е.Ю. Письмо у финско-русских билингвов младшего школьного возраста // Психолингвистические аспекты изучения речевой деятельности. — Т. 13 из Труды Уральского психолингвистического общества. — Уральский государственный педагогический университет Екатеринбург, 2015. — С. 107–122.
[4] Термин «Описательная статистика» в данном случае обозначает, что будут рассчитываться параметры, описывающие распределение данных (в первую очередь, по умолчанию — среднее значение и стандартное отклонение, подробнее см. параграф 3.1)
[5] Обратим внимание, что в общем списке переменных при описании переменной сначала выводится ее метка, введенная нами на русском языке, а затем — собственно, название переменной
[6] В это окно может быть перемещено любое количество имеющихся переменных.
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.