Коэффициенты множественной детерминации и корреляции Скорректированный коэффициент множественной детерминации

Коэффициенты множественной детерминации и корреляции характеризуют совместное влияние всех факторов на результат.

По аналогии с парной регрессией можно определить долю дисперсии результата, объясненной вариацией включенных в модель факторов (), в его общей дисперсии (). Ее количественная характеристика — теоретический множественный коэффициент детерминации ().

Для линейного уравнения регрессии данный показатель может быть рассчитан через ( -коэффициенты:

.

– коэффициент множественной корреляции. Он принимает значения от 0 до 1 (в отличие от парного коэффициента корреляции, который может принимать отрицательные значения). Поэтому R не может быть использован для интерпретации направления связи. Чем плотнее фактические значения уi располагаются относительно теоретической линии регрессии, тем меньше остаточная дисперсия и, следовательно, больше величина .Таким образом, при значении R, близком к 1, уравнение регрессии лучше описывает фактические данные, и факторы сильнее влияют на результат. При значении R, близком к 0, уравнение регрессии плохо описывает фактические данные, и факторы оказывают слабое воздействие на результат.

!

Важное свойство коэффициента детерминации состоит в том, что это неубывающая функция от числа факторов, т.е. включение в модель любого дополнительного фактора хт+1 не приведет к снижению коэффициента детерминации: .

Рассмотрим подробнее формулу расчета коэффициента детерминации через необъясненную дисперсию:

.

Знаменатель в данной формуле от числа факторов не зависит. А числитель снижается с введением в модель дополнительного фактора. Поэтому при сравнении двух моделей иногда не совсем ясно, за счет чего возрос показатель R2: за счет реального влияния дополнительного фактора на результат, либо просто ввиду увеличения числа факторов.

Для того чтобы значения R2 были сравнимы по разным моделям, необходимо учесть число независимых переменных в модели. Это можно сделать, если определить коэффициент детерминации не через суммы квадратов, а через дисперсии на 1 степень свободы. В результате получим скорректированный коэффициент детерминации — :

,

где h – общее число параметров в уравнении регрессии;

п – число наблюдений.

Если п велико, то R2 и , будут незначительно отличаться.

Рассмотрим пример. Пусть по данным о 20 рабочих оценена регрессия заработной платы рабочего по возрасту (x1) и выработке (х2):

.

Оценим качество данного уравнения регрессии, т.е. рассчитаем коэффициент множественной детерминации:

=0,60166·0,85305+0,408476·0,778766=0,831356

(расчет и см. в п. 2.1.2, расчет ryx1 и ryx2 – в п. 2.2.1).

Это значит, что 83,14 % вариации заработной платы рабочего определяется уравнением регрессии, а, следовательно, и факторами: «возраст» и «выработка».

Значение коэффициента множественной корреляции близко к единице, что свидетельствует об очень тесной зависимости между факторами и результатом.

Сравним результаты оценки двухфакторной регрессии с однофакторной регрессией заработной платы рабочего по возрасту рабочего х. Оцененное уравнение однофакторной регрессии: (см. п. 1.2.1), коэффициент детерминации . Коэффициент детерминации в однофакторной регрессии меньше, чем в двухфакторной.

Чтобы определить, какое уравнение регрессии лучше, рассчитаем скорректированные коэффициенты детерминации:

· для однофакторной регрессии:
;

· для двухфакторной регрессии:

Так как скорректированный коэффициент детерминации для двухфакторной модели больше, чем для однофакторной, делаем вывод, что двухфакторная модель регрессии предпочтительнее. Улучшение качества уравнения регрессии при введении дополнительного фактора 2 выработка за смену) существенно.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: