Корреляционная связь – связь, проявляющаяся не в каждом отдельном случае, а в массе случаев в средних величинах в форме тенденции. Связь двух признаков (x,y) называется парной корреляцией.
Установить факт наличия связи можно при помощи анализа аналитической группировки по признаку – фактору. Устанавливается результативный показатель () и фактор его изменения, характеризуемый его показателем x. Одним из основных методов выявления наличия корреляционной связи является метод аналитической группировки и определение групповых средних. Все единицы совокупности разбиваются на группы по величине признака - фактора и для каждой группы определяется средняя величина результативного признака. На основе данных аналитической группировки строится график эмпирической линии связи, вид которой не только позволяет судить о возможном наличии связи, но и дает некоторое представление о форме корреляционной связи. Если эмпирическая линия связи по своему виду приближается к прямой линии, то можно предположить наличие прямолинейной корреляционной связи.
|
|
Качественная переменная. Ранжирование объектов по качественному признаку. Согласованные последовательности рангов.
Напомним, что качественной (порядковой) переменной называется такая переменная X, которую нельзя измерить в физических единицах, но которая позволяет сравнивать наблюдаемые объекты (субъекты) между собой и упорядочивать их по степени проявления качества, например в порядке убывания качества. Примеры качественных переменных приведены в разд. 1.1.
Ранжированием объектов по качественной переменной Xназывается процесс упорядочения объектов по степени убывания (возрастания) их качества. Результат ранжирования называется ранжировкой. Рангом объекта называется порядковый номер объекта в ранжировке.
Если все объекты выборки получают разные ранги, то ранжировка будет строгой; если несколько объектов выборки имеют одинаковое качество, то – нестрогой.
В случае нестрогой ранжировки применяют способ средних рангов: каждому из объектов однородной группы с одинаковым качеством присваивается ранг, равный среднему арифметическому порядковых номеров этих объектов в условно строгой ранжировке.
Перейдем к построению согласованных последовательностей рангов. Пусть изучается связь между парой качественных переменных X и Y, для чего сформирована выборка – результаты последовательных наблюдений . Сначала расположим наблюдаемые пары в порядке убывания (невозрастания) качества по первой переменной X:
… | |||||
… |
Затем присвоим этим парам порядковые номера в соответствующих условно строгих ранжировках по переменным Xи Y. Получим следующую таблицу:
|
|
X | … | … | ||||
Y | … | … |
В данной таблице – ранг (порядковый номер) по переменной Y того объекта, который имеет ранг в первой ранжировке по переменной X.
Далее (если несколько объектов имеют одинаковое качество по некоторой переменной) применяем способ средних рангов, в результате получаем две согласованные последовательности рангов:
… | ||||
… |
В первой строке таблицы представлена ранджировка по переменной X, во второй – согласованная с ней ранжировка по переменой Y.
Выборочный коэффициент ранговой корреляции Спирмена
и проверка его статистической значимости
Этот коэффициент используется для оценки тесноты ранговой корреляционной связи между двумя качественными переменными Xи Yпо данным выборки , . Условия его применимости следующие:
· ;
· двумерная случайная величина (X,Y) имеет непрерывное распределение.
Важно отметить, что ранговая корреляция может применяться и для количественных переменных в случае, если заранее не гарантируется нормальность распределения.
Пусть проведено ранжирование объектов и получены две согласованные последовательности рангов , . Выборочный коэффициент ранговой корреляции Спирмена вычисляется по формуле
,
где – разность рангов.
Он варьирует от –1,0 до +1,0. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак при нем указывает направление связи: знак “ + ” соответствует прямой зависимости, знак “ - ” - обратной.
Для проверки статистической значимости выборочного коэффициента ранговой корреляции Спирмена на заданном уровне значимости выдвигается гипотеза об отсутствии ранговой корреляционной связи:
при .
Для проверки выдвинутой гипотезы используется статистика Стьюдента:
.
При условии справедливости нулевой гипотезы случайная величина T имеет -распределение Стьюдента с степенями свободы.
Зная коэффициент Спирмена , вычисляем наблюдаемое значение статистики Стьюдента. По таблице квантилей распределения Стьюдента определяем критическую точку статистики Стьюдента:
при .
Критерий проверки (разрешающее правило):
1. Если , то гипотеза сохраняется (ранговая корреляционная связь практически отсутствует).
2. Если , то гипотеза решительно отвергается (существует значимая ранговая корреляционная связь между качественными переменными X,Y).
Задача 4
П о 14-ти юридическим консультациям имеются соответствующие данные об объеме продукции (услуг) за месяц (, тыс.руб.) и уровне компьютеризации труда (, %). Статистические данные приведены в таблице.
Для выявления наличия корреляционной связи между объемом оказанных услуг и уровнем компьютеризации требуется:
1. Построить аналитическую таблицу и дать графическое линии связи.
2. Измерить тесноту связи между признаками с помощью коэффициента рангов; проверить его достоверность.
Решение.
Результативный признак – объем услуг ();
Факторный признак – уровень компьютеризации труда ().
Первичная информация проверяется на однородность по признаку-фактору с помощью коэффициента вариации.
100; .
Для расчета используем вспомогательную таблицу 1.
Таблица 1.
№ по порядку | Уровень компьютериза-ции, Х,% | Объем услуг, y, тыс.руб. | хi- | (хi- )2 |
-24,6429 | 607,2704 | |||
-20,6429 | 426,1276 | |||
-17,6429 | 311,2704 | |||
-11,6429 | 135,5561 | |||
-6,64286 | 44,12755 | |||
-1,64286 | 2,69898 | |||
4,357143 | 18,98469 | |||
6,357143 | 40,41327 | |||
7,357143 | 54,12755 | |||
9,357143 | 87,55612 | |||
10,35714 | 107,2704 | |||
14,35714 | 206,1276 | |||
15,35714 | 235,8418 | |||
15,35714 | 235,8418 | |||
Итого: | 2513,214 | |||
Среднее: | 79,64 | 179,5153 | ||
Ср.квадр. | 0,16823 | 13,39833 |
;
|
|
; 100 (%); £ 33%,
следовательно, совокупность можно считать однородной.
Для установления факта наличия связи производится группировка по признаку-фактору. Группировка выполняется при равных интервалах и числе групп .
Величина интервала определяется по формуле
.
Построим групповую аналитическую таблицу (таблицу средних).
Зависимость объема услуг от уровня компьютеризации
уровень компьютеризации, % () | Число консультаций, | Средняя величина объема услуг, тыс.руб. () | |
55-60 | |||
60-65 | |||
65-70 | |||
70-75 | |||
75-80 | |||
80-85 | |||
85-90 | |||
90-95 | 99,7 |
Как видно из данных групповой таблицы с увеличением уровня компьютеризации увеличивается объем предоставляемых услуг.
2. Для расчета коэффициентов корреляции рангов предварительно выполняется ранжирование по каждому признаку.
№ кон-суль-тации | Уровень компьютеризации | Объем услуг | № кон-суль-тации | Уровень компьютеризации | Ранг по | № кон-суль-тации | Объем услуг | Ранг по y |
13,5 | ||||||||
13,5 |
Вспомогательная таблица для расчета коэффициента корреляции рангов Спирмена
№ консуль-тации, | Уровень компьютеризации | Объем услуг | Ранги | (ранг - ранг ) | ||
-2 | ||||||
-2 | ||||||
-2 | ||||||
-1 | ||||||
-1 | ||||||
-1 | ||||||
13,5 | 0,5 | 0,25 | ||||
13,5 | -0,5 | 0,25 | ||||
Сумма | 44.5 |
.
|
|
Для проверки статистической значимости выборочного коэффициента ранговой корреляции Спирмена на заданном уровне значимости =0.05 выдвигается гипотеза об отсутствии ранговой корреляционной связи:
при .
Для проверки выдвинутой гипотезы исчисляется статистика Стьюдента:
.
При условии справедливости нулевой гипотезы случайная величина T имеет -распределение Стьюдента с степенями свободы.
Зная коэффициент Спирмена , вычисляем наблюдаемое значение статистики Стьюдента. По таблице квантилей распределения Стьюдента определяем критическую точку статистики Стьюдента:
при ., tкр=2,178
Критерий проверки (разрешающее правило):
1. Если , то гипотеза сохраняется (ранговая корреляционная связь практически отсутствует).
2. Если , то гипотеза решительно отвергается (существует значимая ранговая корреляционная связь между качественными переменными X,Y).
В нашем случае , 6,7³ 2,18, следовательно, принимается гипотеза о значимости корреляционная связь между качественными переменными X,Y), т.е. с повышения уровня компьютеризации растет объем услуг.