Супруги X и Y ранжировали 8 жизненных ценностей по степени предпочтения. Данные представлены в таблице:
Ценности | Ранги X | Ранги Y | Р (совпадения) | Q (инверсии) |
Здоровье | ||||
Любовь | ||||
Богатство | ||||
Свобода | ||||
Мудрость | ||||
Познание | ||||
Развитие | ||||
Творчество | ||||
2 = 20 |
В качестве меры согласованности предпочтений супругов вычислим корреляцию т4-Кендалла, так как наблюдаются связи в рангах: одна группа из трех рангов по Хи две группы по три ранга по Y.
Обратите внимание на подсчет совпадений для объектов, попадающих в «связки». Например, для объекта «Богатство» пропускаются два ниже находящихся объекта, как имеющие одинаковые с ним ранги по X.
КОРРЕЛЯЦИЯ БИНАРНЫХ ДАННЫХ
Как отмечалось ранее, если одна из двух переменных представлена в номинативной шкале, а другая — в числовой (ранговой или метрической), то связь между этими переменными лучше изучать путем сравнения групп по уровню выраженности числовой переменной.
|
|
ПРИМЕР _________________________________________________
Предположим, исследуется связь количества пропущенных лекций студентами и курса обучения (с 1-го по 5-й). Первая переменная — метрическая, а вторая — номинативная. Связь между этими переменными может быть изучена путем сравнения разных курсов по количеству пропущенных лекций (по средним значениям). Если будут обнаружены различия между курсами, то посещаемость лекций связана с курсом обучения, в противном случае — связи нет.
То же касается проблемы изучения связи между двумя номинативными переменными. Хотя и для этого случая существуют коэффициенты корреляции (К— Чупрова, С — Пирсона), но возможность их интерпретации весьма ограничена, в частности потому, что они отражают лишь силу связи, но не ее направление. Поэтому и в этом случае проблему связи между двумя номинативными переменными лучше изучать путем сравнения градаций одной переменной по распределению другой переменной.
ПРИМЕР
Предположим, исследуется связь агрессивности учащихся (три градации: низкая, средняя, высокая) и образования их родителей (среднее, высшее техническое, высшее гуманитарное). Результаты исследования связей двух номинативных переменных обычно представляются в виде таблицы сопряженности:
Агрессивность | Образование родителей | ||
Среднее | Высш. технич. | Высш. гуманит. | |
Низкая | |||
Средняя | |||
Высокая |
ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ
Связь между этими переменными может быть изучена путем сравнения распределений учащихся по степени агрессивности для разных градаций образования родителей (или, что то же самое, путем сравнения распределения образования родителей для разных градаций степени агрессивности учащихся).
|
|
Исключением можно считать случай изучения связи двух бинарных переменных. Бинарная переменная имеет только две градации, обычно обозначаемые как О и 1. Примеры таких переменных: пол (мужской, женский), образование (среднее, высшее), тревожность (низкая, высокая), успешность (низкая, высокая) и т. д. При изучении связей между бинарными переменными обычно строят че-тырехклеточные таблицы сопряженности:
Таблица 6.1 Таблица сопряженности 2x2
Признак X | Итог | |||
Признак Y | а | Ъ | а+ b | |
с | d | с + d | ||
Итог | а + с | b + d | N |
В этом случае допустимо применение г-Пирсона (формула 6.1) непосредственно к исходным данным — двум бинарным переменным, принимающим значение 0 или 1, измеренным для каждого члена выборки численностью Л'. Результат применения r-Пирсона к двум бинарным переменным называется «фи-коэффициентом сопряженности» (Phi). Если данные представлены в четырех-клеточной таблице сопряженности, то применяется формула, существенно упрощающая расчеты, но дающая аналогичный результат:
ad-bc c
ср = ■ , (6.10)
J(a + b)(c + d)(a + c)(b + d) где а, Ь, с, d соответствуют обозначениям в четырехклеточной таблице 6.1.
ПРИМЕР 6.7___________________________________________________________
Исследовалась связь семейного положения студенток (X: 0 — холостая, 1 — замужем) и их академической успеваемости (Y: 0 — закончила вуз, 1 — отчислена). В распоряжении исследователя есть данные для 12 студенток:
№ | ||||||||||||
X | ||||||||||||
Y |
Таблица сопряженности для этих данных:
X | Итог | |||
Y | ||||
Итог |
ЧАСТЬ I. ОСНОВЫ ИЗМЕРЕНИЯ И КОЛИЧЕСТВЕННОГО ОПИСАНИЯ ДАННЫХ
Вычислим ф-коэффициент сопряженности:
Получена умеренная положительная взаимосвязь: холостые студентки чаше заканчивают вуз, а замужние — чаще отчисляются. Отметим, что тот же самый результат был бы получен при применении формулы /'-Пирсона непосредственно к исходным данным.
Итак, ф-коэффициент есть просто /"-Пирсона, вычисленный для бинарных данных, а формула 6.10 алгебраически эквивалентна формуле 6.1. Следовательно, интерпретация ф-коэффициента подобна интерпретации /--Пирсона. Но использование ф-коэффициента существенно ограничено. Чем больше асимметрия распределения 0 и 1 по каждой переменной, тем менее точно ф-коэффициент отражает связь между бинарными переменными. Иначе говоря, применение q-коэффициента требует приблизительного равенства количества 0 и 1 по каждой переменной.
ВЕЛИЧИНА КОРРЕЛЯЦИИ И СИЛА СВЯЗИ
Коэффициенты корреляции были специально разработаны для численного определения силы и направления связи между двумя свойствами, измеренными в числовых шкалах (метрических или ранговых). Как уже упоминалось, максимальной силе связи соответствуют значения корреляции +1 (строгая прямая или прямо пропорциональная связь) и —1 (строгая обратная или обратно пропорциональная связь), отсутствию связи соответствует корреляция, равная нулю. Дополнительную информацию о силе связи дает значение коэффициента детерминации г2: это часть дисперсии одной переменной, которая может быть объяснена влиянием другой переменной.
Однако в ряде случаев разные коэффициенты корреляции имеют различную эффективность, а иногда все они оказываются нечувствительными к связям.
Выбросы и отклонения распределений от нормальности
|
|
Выбросы — это экстремально большие или малые значения признака. В наиболее существенной степени выбросы влияют на корреляцию г-Пирсона, так как величина этого коэффициента прямо пропорциональна отклонению значения переменной от среднего.
ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ
ПРИМЕР 6.8
Воспользуемся данными из примера 6.1 с показателями вербального и невербального интеллекта, измеренного у 20 учащихся 8-го класса (г- 0,517). Добавим еще одно наблюдение: x21 = 3,y2i = 16 (см. рис. 6.5). Новое значение г-Пирсона для всех N= 21 теперь будет равно г— —0,124.
о.
ш
6 8 10
Вербальный IQ
Рис. 6.5. Демонстрация влияния экстремальных значений признаков («выброса») на коэффициент корреляции Пирсона
Пример 6.8 демонстрирует, что даже одно наблюдение с экстремально большими или малыми значениями переменных может изменить знак корреляции на противоположный. Точно так же немногочисленные выбросы могут обусловить и появление корреляции.
Существенно меньшему влиянию выбросов подвержены ранговые корреляции. Поэтому один из способов борьбы с выбросами — переход к рангам и применение ранговых коэффициентов корреляции.
Для примера 6.8 ранговые коэффициенты корреляции (Спирмена и Кендалла) для первых 20 испытуемых (без выброса) составляют, соответственно: rs = 0,505; х = 0,390. При добавлении выбросов: rs = 0,294; т = 0,239. Значения корреляций уменьшилось, но не столь существенно, как л-Пирсона.
Другой подход к выбросам подразумевает «чистку» данных. Можно для каждой переменной установить определенное ограничение на диапазон ее изменчивости. Например, исключать те наблюдения, которые выходят за пределы диапазона М±2а (или даже М± 1,5а).
ЧАСТЬ I. ОСНОВЫ ИЗМЕРЕНИЯ И КОЛИЧЕСТВЕННОГО ОПИСАНИЯ ДАННЫХ
Часто такая «чистка» совершенно необходима. Например, при исследовании времени реакции, когда основная масса наблюдений находится в диапазоне 250-700 мс, исключение нескольких «странных» значений меньше 50 мс и больше 1000 мс может существенно изменить общую картину.
По сути, наличие выбросов означает отклонение распределений одной или обеих переменных от нормального вида. В общем случае, если распределения переменных сильно скошены (асимметричны), это может существенно снижать значение корреляции даже при сильной связи между соответствующими свойствами или, наоборот, обусловить появление «ложной» корреляции. Особенно сильно асимметричность распределений влияет на г-Пирсона. Поэтому при существенном отклонении формы распределения хотя бы одной переменной от нормального вида желательно перейти к рангам и воспользоваться ранговым коэффициентом корреляции.
|
|
Влияние «третьей» переменной
Иногда корреляция между двумя переменными обусловлена не связью между соответствующими свойствами, а влиянием некоторой общей причины совместной изменчивости этих переменных, которая зачастую выпадает из поля зрения исследователя. Эта общая причина может быть измерена как некоторая «третья» переменная, представленная либо в номинативной шкале, либо в количественной (ранговой или метрической) шкале.
Если истинная причина корреляции представляет собой номинативную переменную, то это проявляется в характерной неоднородности выборки: в ней можно обнаружить различные группы, для которых согласованно меняются средние двух переменных, в то время как внутри групп эти переменные не коррелируют. Если подобное явление возможно и существует способ содержательно интерпретируемого деления выборки на группы, необходимо вычислить корреляцию не только для всей выборки, но и для каждой группы в отдельности.
ПРИМЕР_______________________________________________________
Если мы возьмем достаточно большую группу людей — мужчин и женщин, то обнаружим существенную отрицательную корреляцию роста и длины волос: чем больше рост, тем короче волосы. Однако, рассматривая график рассеивания роста и длины волос с выделением групп мужчин и женщин, мы обнаружим истинную причину этой корреляции — пол (рис. 6.6). Корреляции роста и длины волос отдельно для мужчин и отдельно для женщин будут близки к нулю.
Другой случай «ложной» корреляции — когда «третья» переменная может быть представлена в числовой шкале.
ПРИМЕР_______________________________________________________
Число церквей и количество увеселительных заведений в городах, как известно, сильно коррелируют, так же, впрочем, как рост и навык чтения у детей. Нетрудно
Рис. 6.6. График рассеивания для роста и длины волос. Темные точки — мужчины, светлые треугольники — женщины
догадаться, что в первом случае «третьей» переменной является численность городского населения, а во втором — возраст детей. (См. также пример 6.3 из раздела «Частная корреляция».)
Если истинная причина корреляции между двумя переменными Хп Y Измерена как количественная переменная Z, то предположение о том, что именно она является причиной корреляции, можно проверить, вычислив частную корреляцию rxy_z по формуле 6.5. Если частная корреляция Хп Ус учетом Z (rxy-z) существенно меньше г^, то весьма вероятно, что именно Zявляeтcя истинной причиной корреляции Хп Y.
Следует отметить, что за редким исключением факт наличия или отсутствия корреляции может быть объяснен влиянием некоторой «третьей» переменной, упущенной из поля зрения исследователя. Таким образом, всегда остается возможность альтернативной интерпретации обнаруженной корреляции.
\
Нелинейные связи
Еще одним источником низкой эффективности корреляций являются возможный нелинейный характер связи между переменными. То, какой характер имеет связь между переменными, можно заметить, рассматривая график двумерного рассеивания. Это свидетельствует о важности визуального анализа связи с помощью таких графиков во всех случаях применения корреляций.
К отклонениям от прямолинейной зависимости любого рода наиболее чувствителен коэффициент корреляции r-Пирсона. Однако если нелинейная
ЧАСТЬ I. ОСНОВЫ ИЗМЕРЕНИЯ И КОЛИЧЕСТВЕННОГО ОПИСАНИЯ ДАННЫХ
связь оказывается монотонной, то возможен переход к рангам и применение ранговых корреляций.
Довольно часто в исследованиях встречаются немонотонные связи — когда связь меняет свое направление (с прямого на обратное, или наоборот) при увеличении или уменьшении значений одной из переменной.