Коэффициенты корреляции и детерминации

Определим, насколько тесно связаны между собой зависимая и независимая величины y и x. Для этого рассмотрим коэффициент корреляции

. (15)

Коэффициент корреляции является относительной мерой связи между двумя переменными, поэтому значения коэффициента корреляции всегда находятся, как видно из (15), между –1 и +1 (-1£rxy£1). Положительное значение коэффициента корреляции свидетельствует о наличии прямой, а отрицательное – обратной связей между переменными. Когда коэффициент корреляции стремится по абсолютной величине к единице, это говорит о наличии сильной связи (rxy ®±1) – теснота связи велика, в противном случае, когда коэффициент корреляции стремится к 0, – связь отсутствует.

Анализ вариации зависимой переменной в регрессии. Коэффициент детерминации

Рассмотрим вариацию (разброс) значений Yt­ вокруг среднего значения. Разобьем эту вариацию на две части: объясненную регрессионным уравнением и не объясненную (связанную с ошибками).

Обозначим через предсказанное значение Yt, тогда (рис. 7) и вариация Yt можно представить в виде трех слагаемых:

(16)

       
   
 
 


Yt

Yt -Yt

Yt Yt -Y

Yt -Y

Yt

 
 


Xt

Рис. 7

Третье слагаемое в формуле (16) равно нулю, так как – вектор остатков регрессии ортогонален константе S и вектору X. В самом деле,

Поэтому верно равенство

. (17)

SST SSE SSR

Обозначим левую часть в (17) через SST – общая сумма квадратов (вся дисперсия), первое слагаемое в правой части, соответствующее необъясненной дисперсии (сумма квадратов ошибок), – через SSE, второе слагаемое в правой части – SSR – объясняющая часть регрессии (сумма квадратов, объясняющих регрессию).

Статистика R2 – коэффициент детерминации

Коэффициентом детерминации, или долей объясняющей дисперсии является

R2 = 1 – SSE / SST = SSR / SST. (18)

R2 принимает значения между 0 и 1, 0 £ R2 £ 1.

Если R2 = 0, то это значит, что регрессия ничего не дает, т.е. Xt не улучшает качества предсказания Yt по сравнению с тривиальным предсказанием Yt = Y.

Другой крайний случай R2 =1 означает точную подгонку: все точки наблюдений лежат на регрессионной прямой (все et = 0).

Чем ближе к единице значение R2, тем лучше качество подгонки.

Связь между коэффициентом корреляции и коэффициентом детерминации

По определению, коэффициент детерминации равен

R2 = SSR / SST (19)

Напомним, что

SST = , (20)

SSR = . (21)

Перепишем (21) в виде

. (22)

Тогда

R2 = SSR / SST = . (23)

Учитывая, что

, (24)

коэффициент детерминации равен квадрату коэффициента корреляции:

R2 = r2. (25)


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: