1). Линейный коэффициент корреляции (r) был предложен английским статистиком К. Пирсоном в начале 90-х годов XIX века для парной линейной связи двух интервальных величин. Он устанавливает соотношение величин отклонений индивидуальных значений факторного и результативного признаков от их средних показателей. Причём сравнению подлежат не абсолютные значения отклонений, а нормированные отклонения, выражаемые в долях средних квадратических отклонений.
Формулы для расчёта линейного коэффициента корреляции:
где – значения факторного признака;
– средняя величина факторного признака;
– среднее квадратическое отклонение факторного признака;
– значения результативного признака;
– средняя величина результативного признака;
– среднее квадратическое отклонение результативного признака;
n – количество вариантов значений признака.
Линейный коэффициент корреляции можно рассчитать и по формуле:
.
Коэффициент корреляции принимает значения в интервале от –1 до +1. Знак коэффициента корреляции указывает на направление связи (плюс – прямая связь, минус – обратная связь), а его величина по модулю указывает степень тесноты (силы) связи (чем ближе к единице, тем сильнее связь признаков). Нулевое значение коэффициента корреляции свидетельствует об отсутствии линейной связи между признаками, но не исключает наличие криволинейной зависимости.
Оценка линейного коэффициента корреляции
Значение r | Характер связи | Интерпретация связи |
r = 0 | Отсутствует | Изменение x не влияет на изменения y |
0 < r < 1 | Прямая | С увеличением x увеличивается y |
0 < r < 0,3 | Слабая | |
0,3 < r < 0,5 | Умеренная | |
0,5 < r < 0,7 | Средняя, заметная | |
0,7 < r < 1 | Сильная, тесная, высокая | |
-1 < r < 0 | Обратная | С увеличением x уменьшается y, и наоборот |
r = 1, r = -1 | Функциональная (полная) | Каждому значению факторного признака строго соответствует одно значение результативного |
Пример 1. Расчёт линейного коэффициента корреляции по данным таблицы:
Товароборот (х) | Издержки обращения (у) | |||
480 | 30 | 230400 | 900 | 14400 |
510 | 25 | 260100 | 625 | 12750 |
530 | 31 | 280900 | 961 | 16430 |
540 | 28 | 291600 | 784 | 15120 |
570 | 29 | 324900 | 841 | 16530 |
590 | 32 | 348100 | 1024 | 18880 |
620 | 36 | 384400 | 1296 | 22320 |
640 | 36 | 409600 | 1296 | 23040 |
650 | 37 | 422500 | 1369 | 24050 |
660 | 38 | 435600 | 1444 | 25080 |
Коэффициент детерминации представляет собой квадрат коэффициента корреляции , выражается в процентах и показывает, какой процент вариации результативного признака объясняется вариацией факторного признака. Этот показатель изменяется в пределах от 0 до 1, и чем ближе он к 1, тем теснее связаны признаки.
Ограничения в применении линейного коэффициента корреляции:
1) точно оценивает тесноту связи только в случае наличия линейной зависимости между признаками;
2) устанавливает зависимость, взаимную согласованность в изменении значений признаков, но не позволяет трактовать обнаруженную связь как причинно-следственную по характеру;
3) применим только для нормального или близкого к нормальному распределению признаков в изучаемой статистической совокупности;
4) эффективен при оценке связи в не очень длинных рядах.
2). Эмпирическое корреляционное отношение (η)используется при наличии нелинейной (криволинейной) связи между двумя переменными. Этот показатель был также предложен К. Пирсоном в 1896 году. Его расчёт основан на законе сложения дисперсий. Он позволяет оценить ту долю, которую составляет вариация под действием факторного признака в общей вариации результативного признака:
,
где – общая дисперсия эмпирических значений y, характеризует вариацию результативного признака за счёт всех факторов, включая х;
– межгрупповая дисперсия колеблемости значений результативного признака, отражает влияние факторного признака х, положенного в основу группировки, на вариацию у;
– средняя из внутригрупповых дисперсий эмпирических значений результативного признака, отражает влияние на вариацию у всех остальных (случайных) факторов, кроме х.
Чем больше доля межгрупповой дисперсии в общей дисперсии, тем теснее связаны факторный и результативный признаки. Корреляционное отношение изменяется в пределах от 0 до 1. Его величина будет равна нолю в случае отсутствия вариации средних в выделенных группах. В тех же случаях, когда средняя из внутригрупповых дисперсий близка к нолю, т. е. практически вся вариация результативного признака обусловлена действием факторного признака, величина эмпирического корреляционного отношения близка к 1.
Оценка связи на основе корреляционного отношения (шкала Чеддока)
Значение | Характер связи | Значение | Характер связи | |
η = 0 | Отсутствует | 0,5 ≤ η < 0,7 | Заметная | |
0 < η < 0,2 | Очень слабая | 0,7 ≤ η < 0,9 | Сильная | |
0,2 ≤ η < 0,3 | Слабая | 0,9 ≤ η < 1 | Весьма сильная | |
0,3 ≤ η < 0,5 | Умеренная | η = 1 | Функциональная |
Для линейной зависимости корреляционное отношение тождественно линейному коэффициенту корреляции, т. е. η = |r|. Когда связь между признаками уклоняется от линейной формы, то это равенство нарушается, причём η всегда оказывается больше r по абсолютной величине.
Квадрат корреляционного отношения (коэффициент детерминации) показывает, насколько изменение результативного признака объясняется изменением факторного признака.
Преимуществом использования корреляционного отношения является то, что сфера его применения шире, чем у линейного коэффициента корреляции, – как для анализа линейных, так и нелинейных связей. При этом факторный признак может быть не только количественным (интервальным), но и качественным (номинальным) и порядковым (ранговым). Ещё одной отличительной особенностью корреляционного отношения выступает то, что оно позволяет определить, какой из признаков является результативным, а какой – факторным. Для этого вычисляются два корреляционных отношения, в которых меняются местами факторный и результативный признаки. Сравнение полученных значений позволяет определить их роли. Но есть и один недостаток корреляционного отношения – оно не указывает, является ли связь прямой или обратной.