Показатели качества регрессии

Качество уравнения регрессии оценивается по тому, как хорошо уравнение регрессии согласуется со статистическими данными. Другими словами, насколько широко рассеяны точки наблюдений относительно линии регрессии.

Пусть на основе выборочных наблюдений построено уравнение регрессии, тогда значение зависимой переменной в каждом наблюдении можно разложить на две составляющие: . В качестве меры общего разброса значений зависимой переменной вокруг среднего значения возьмем сумму квадратов отклонений (вариацию) от . Общая вариация может быть разложена на две составляющие:

. (1.2.1)

Часто уравнение (1.2.1) записывают в следующих обозначениях:

TSS=ESS+RSS,

где

TSS= – общая сумма квадратов отклонений зависимой переменной от ее среднего выборочного значения (total sum of squares);

RSS= –сумма квадратов, объясненная регрессией (regression sum of squares);

ESS= – необъясненная регрессией (остаточная) сумма квадратов отклонений (error sum of squares).

Мерой качества уравнения регрессии является коэффициент детерминации. Коэффициентом детерминации называется отношение . (1.2.2)

Величина показывает, какая доля вариации зависимой переменной обусловлена вариацией объясняющей переменной.

Из формулы (1.2.2) следует, что в общем случае справедливо соотношение . При вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели переменных (случайных факторов) и линия регрессии параллельна оси абсцисс (, ). При все точки наблюдения лежат на регрессионной прямой и между и имеется линейная функциональная зависимость, т. е. , (, ).

Таким образом, чем ближе значение коэффициента детерминации к 1, тем лучше качество подгонки регрессионной модели к наблюденным значениям .

Заметим, что вычисление корректно лишь в том случае, когда константа включена в уравнение регрессии. Только в этом случае справедливо разложение (1.2.1).

Для определения статистической значимости коэффициента детерминации проверяется гипотеза для F -статистики, рассчитываемой по формуле

. (1.2.3)

в том случае, если . Поэтому, проверяя значимость F -статистики, мы можем проверить статистическую значимость коэффициента детерминации.

Величина F имеет распределение Фишера с , степенями свободы. Вычисленный критерий F сравнивается с критическим значением . Если , то принимается, т. е. незначим; если , то отклоняется, т. е. значим.

В случае парной регрессии коэффициент детерминации совпадает с квадратом коэффициента корреляции переменных и , т. е. .

Коэффициент линейной парной корреляции – показатель тесноты линейной связи между признаками и :

, (1.2.4)

где и – средние квадратические отклонения фактора и результативного признака соответственно.

Коэффициент – безразмерная величина, лежащая в пределах . Чем ближе к единице, тем теснее связь.

При корреляционная связь представляет линейную функциональную зависимость. При линейная корреляционная связь отсутствует.

При () корреляционная связь между переменными называется прямой, при () – обратной.

Для практических расчетов удобной является следующая формула:

. (1.2.5)

Еще одним показателем качества модели регрессии является средняя ошибка аппроксимации:

. (1.2.6)

Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше средняя ошибка аппроксимации. Ошибка аппроксимации меньше 7 % свидетельствует о хорошем качестве модели.

Пример 1.2.1

Для данных примера 1.1.1 рассчитать выборочный коэффициент корреляции.

Решение. Выборочный коэффициент корреляции вычислим по формуле (1.2.5) с использованием средних значений из таблицы 1.1.2:

.

Полученное значение можно проверить с помощью стандартной статистической функции КОРРЕЛ(X;Y).

Пример 1.2.2

Вычислить коэффициент детерминации и F -статистику для регрессии, оцененной в примере 1.1.1.

Решение. По формуле (1.2.2) рассчитаем величину выборочного коэффициента детерминации. Значения и вычислены в табл. 1.1.3 и расположены в строке “сумма” восьмого и девятого столбцов.

.

Значение F -статистики вычислим по формуле (1.2.3):

.

При уровне значимости , степенях свободы , критическое значение критерия Фишера , т. е. .

Критическое значение можно определить в Excel при помощи функции Fраспобр. Параметры функции: вероятность – уровень значимости , число степеней свободы 1 – для парной регрессии 1, число степеней свободы 2 – для парной регрессии 2.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: