Коэффициент корреляции

Ковариация.

 

Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

 

Линейный коэффициент корреляции принимает значения от –1 до +1.

Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:

0.1 < rxy < 0.3: слабая;

0.3 < rxy < 0.5: умеренная;

0.5 < rxy < 0.7: заметная;

0.7 < rxy < 0.9: высокая;

0.9 < rxy < 1: весьма высокая;

В нашем примере связь между признаком Y фактором X весьма высокая и прямая.

Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:

 

1.2. Уравнение регрессии (оценка уравнения регрессии).

 

Линейное уравнение регрессии имеет вид y = 6.61 x + 108.87

Коэффициентам уравнения линейной регрессии можно придать экономический смысл.

Коэффициент регрессии b = 6.61 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 6.61.

Коэффициент a = 108.87 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.

Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.

Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.

Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь прямая.

1.3. Коэффициент эластичности.

Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.

Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты.

Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения.

Коэффициент эластичности находится по формуле:

 

 

Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно.

Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

 

Т.е. увеличение x на величину среднеквадратического отклонения Sx приведет к увеличению среднего значения Y на 0.97 среднеквадратичного отклонения Sy.

1.4. Ошибка аппроксимации.

Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:

 

Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.

 

Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.

Эмпирическое корреляционное отношение.

Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах [0;1].

 

 

где

 

Индекс корреляции.

Для линейной регрессии индекс корреляции равен коэфииценту корреляции rxy = 0.9737.

Полученная величина свидетельствует о том, что фактор x существенно влияет на y

Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:

 

Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy.

В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1].

Теоретическое корреляционное отношение для линейной связи равно коэффициенту корреляции rxy.

Коэффициент детерминации.

Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.

Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.

R2= 0.97372 = 0.948

т.е. в 94.8 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 5.2 % изменения Y объясняются факторами, не учтенными в модели.

Таблица 1

x y x 2 y 2 x • y y(x) (yi-ycp) 2 (y-y(x))2 (xi-xcp)2 |y - yx|:y
1 120 1 14400 120 115.47 635.04 20.5 20.25 0.0377
2 123 4 15129 246 122.08 492.84 0.85 12.25 0.00749
3 130 9 16900 390 128.68 231.04 1.73 6.25 0.0101
4 135 16 18225 540 135.29 104.04 0.0846 2.25 0.002155
5 140 25 19600 700 141.9 27.04 3.6 0.25 0.0135
6 139 36 19321 834 148.5 38.44 90.31 0.25 0.0684
7 150 49 22500 1050 155.11 23.04 26.1 2.25 0.0341
8 162 64 26244 1296 161.72 282.24 0.0811 6.25 0.001758
9 175 81 30625 1575 168.32 888.04 44.61 12.25 0.0382
10 178 100 31684 1780 174.93 1075.84 9.44 20.25 0.0173
55 1452 385 214628 8531 1452 3797.6 197.3 82.5 0.23

 

Оценка параметров уравнения регрессии.

Значимость коэффициента корреляции.

 

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=8 находим tкрит:

tкрит (n-m-1;α/2) = (8;0.025) = 2.306

где m = 1 - количество объясняющих переменных.

Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).

Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим

В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Интервальная оценка для коэффициента корреляции (доверительный интервал).

 

Доверительный интервал для коэффициента корреляции

 

r(0.9358;1.0116)


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: