Лабораторная работа №3
Тема: Таблицы сопряженности.
Цель: Сформировать практические навыки определения взаимосвязи между переменными посредством создания таблиц сопряженности.
Введение
В лабораторной работе №2 рассматривались только отдельные переменные, т.е. проводился одномерный анализ данных. Перейдем к двумерному анализу, т.е. будем определять, существует ли взаимосвязь между двумя и более переменными.
Исследуем зависимость между двумя переменными. Связь между неметрическими переменными (т.е. переменными, относящимися к номинальной шкале или к порядковой шкале с не очень большим количеством категорий) лучше всего представить в форме таблиц сопряженности.
Создание таблиц сопряженности
Рассмотрим файл candidats.sav (данные по списку кандидатов в депутаты Парламента Республики Молдова от ПКРМ на выборах 2005г.).
Загрузите файл с вашими данными. Для создания таблиц сопряженности и вычисления на их основе меры связанности, выберите меню команды Анализ / Описательные статистики/Таблицы сопряженности.
|
|
Откроется диалоговое окно Таблицы сопряженности. Здесь в списке исходных переменных можно выбрать переменные для строк и столбцов таблицы сопряженности. Для каждого сочетания двух переменных будет создана таблица сопряженности. Например, если в списке Строки находится три переменных, а в списке Столбцы – две, то мы получим 3x2=6 таблиц сопряженности.
Построим таблицу сопряженности из переменных «пол» и «профессия». Чтобы таблица приняла более удобный для анализа вид, перенесем переменную «пол» в список Столбцы, а «профессия» – в список Строки (рис.1). (Сравните с таблицей, когда в строках – пол, а в столбцах - профессия).
Рис.1. Диалоговое окно «Таблица сопряженности»
Первая таблица содержит информацию о числе самих наблюдений (рис.2). Из второй таблицы (рис.3) (собственно таблицы сопряженности) видно, что два наблюдения содержат пропущенные (или утерянные) значения в переменной «профессия». Переменная «пол» является столбцовой переменной, т.к. каждое её значение отображается в отдельном столбце. Соответственно, «профессия» - это переменная строк. Значение в каждой ячейке таблицы – количество наблюдений (частота). Числа в последней строке и в последнем столбце Итого показывают суммы значений соответственно по строкам и столбцам.
Рис.2. Таблица «Сводка обработки наблюдений»
Рис.3. Таблица сопряженности «Профессия*пол»
Так, из столбца Итого видно, что из общего числа кандидатов в депутаты по профессиональной принадлежности превалируют инженерные (31 из 100), педагогические (10 из 100) и юридические (10 из 100) специальности. Причем большинство кандидатов, как в данных специальностях, так и во всей совокупности – это мужчины (см. строку Итого и строки наиболее массовых профессий).
|
|
· В данном примере из 100 человек – 77 мужчин и 23 женщины.
· Среди женщин-кандидатов наибольшей популярностью пользуется, в первую очередь, педагогическое направление (4 педагога и 2 преподавателя), затем – инженерное и юридическое (по 3 для каждого направления) и медицинское (2).
· Мужчины наиболее перспективными считают:
1. инженерные профессии;
2. педагогику и преподавание;
3. юриспруденцию;
4. экономику.
Для данной таблицы сопряженности параметры приняты по умолчанию, поэтому в каждой ячейке отображается только абсолютная частота.
Более тщательно исследовать существование зависимости позволяет вычисление значений ожидаемых частот. Чтобы определить эти значения, выполните следующие действия:
· выберите меню команды Анализ / Описательные статистики/Таблицы сопряженности,
· соответствующие переменные перенесите в список строк и список столбцов,
· щелкните на кнопке Ячейки. Откроется диалоговое окно Таблицы сопряженности: Вывод в ячейках (рис.4),
Рис.4. Диалоговое окно «Таблицы сопряженности: Вывод в ячейках»
По умолчанию в ячейках таблицы сопряженности отображаются только наблюдаемые значения частот. В группе Частоты можно выбрать один или более следующих вариантов:
- Наблюдаемые. Будут отображаться наблюдаемые частоты. Это настройка по умолчанию.
- Ожидаемые. Если установить этот флажок, будут отображаться ожидаемые частоты. Они вычисляются как произведение сумм соответствующей строки и столбца, деленное на общую сумму частот.
· установите флажок Ожидаемые,
· щелкните Продолжить и затем OK. Вы получите таблицу сопряженности, где под наблюдаемыми частотами расположены ожидаемые значения (рис.5).
Рис.5. Таблица сопряженности «Профессия*пол», содержащая ожидаемые частоты
Ещё одну возможность выявления существования зависимости между переменными дает вычисление остатков. Эти остатки являются показателем того, насколько сильно наблюдаемые и ожидаемые частоты отклоняются друг от друга. Чтобы получить остатки частот, выберите меню команды Анализ / Описательные статистики/Таблицы сопряженности, перенесите переменные соответственно в список строк и список столбцов, затем щелкните на кнопке Ячейки. Флажки Наблюдаемые и Ожидаемые следует оставить помеченными.
В группе Остатки можно выбрать один или более следующих вариантов отображения:
· Нестандартизированные (ненормированные). Отображаются ненормированные остатки, т.е. разность наблюдаемых () и ожидаемых () частот.
· Стандартизированные (Нормированные): Отображаются нормированные остатки. Для этого ненормированные остатки делятся на квадратный корень из ожидаемой частоты: . Нормированные остатки полезны при последующем проведении анализа тестов по критерию .
· Скорректированные стандартизированные (Уточненные и нормированные). Нормированные остатки вычисляются с учетом сумм по строкам и столбцам:
Где z – сумма по текущей строке,
s – сумма по текущему столбцу,
N – общая сумма частот.
Установите флажок Нестандартизированные и щелкните Продолжить, а в главном диалоговом окне – OK. Перед вами появится таблица сопряженности, содержащая абсолютные частоты, ожидаемые частоты и остаток (рис.6).
Рис.6. Таблица сопряженности «Профессия*пол», содержащая абсолютные частоты,
ожидаемые частоты и остаток