double arrow

Лекция 3. Проверка качества уравнения регрессии. Показатели качества регрессии

Цель лекции: ознакомить студентов с процессом проверки качества уравнения регрессии, показателями качества регрессии.

Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции rxy2=R2 коэффициент детерминации. Он характеризует долю дисперсии результативного признака y, объясняемую регрессией, в общей дисперсии результативного признака

rxy2=R2=.

Соотвественно величина 1-r2 характеризует долю дисперсии y, вызванную влиянием остальных не учтенных в модели факторе.

В примере r2=0,992=0,982, следовательно, уравнением регрессии объясняется 98,2% дисперсии результативного y, а на долю прочих факторов приходится лишь 1,8% ее дисперсии (т.е. остаточная дисперсия).

Величина коэффициента детерминации служит одним из критериев оценки качества линейной модели. Чем больше доля объясненной вариации, тем, соответственно, меньше роль прочих факторов, и, следовательно, линейная модель хорошо аппроксимирует исходные данные и ею можно воспользоваться для прогноза значений результативного признака.

Оценка существенности линейной регрессии и корреляции

После того, как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения регрессии в целом дается с помощью F -критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии b=0 равен нулю и, следовательно, фактор x не оказывает влияния на результат y.

Непосредственному расчету F -критерия предшествует анализ дисперсии. Особое место в нем занимает разложение общей суммы квадратов отклонений переменной y от среднего значения на две части – "объясненную" и "необъясненную".

общая сумма сумма квад- остаточная сумма

квадратов = ратов откло- + квадратов отклонений

отклонений нений, объяс-

ненная ре-

грессией

Общая сумма квадратов отклонений индивидуальных значений результативного признака y от среднего значения вызвана влиянием множества причин.

Условно разделим всю совокупность причин на две группы:

       
   
 


изучаемый факторпрочие факторы

Если фактор не оказывает влияния на результат, то линия регрессии параллельна оси Ox и

           
 
y
 
 
     
x
 


Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной.

Фактор не оказывает

влияния на ре- => =>

зультат остаточная

Если же прочие факторы не влияют на результат, то y связан с x функционально и остаточная сумма квадратов равна нулю => y=y(x).

В этом случае сумма квадратов отклонений объясненная регрессией, совпадает с общей суммой квадратов.

Так как не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора x, т.е. регрессией y по x, так и вызванный действием прочих причин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака y приходится на объясненную вариацию.

Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо, и фактор x оказывает существенное воздействие на результат y. Это равносильно тому, что коэффициент детерминации будет стремиться к 1.

Любая сумма квадратов отклонений связана с числом степени свободы (dƒ – degress of freedom), т.е. с числом свободы независимого варьирования признака. Число df связано с числом единиц совокупности n и с числом определяемых по ней констант.

Применительно к исследуемой проблеме число df должно показать, сколько независимых отклонений из n возможных требуется для образования данной суммы квадратов.

Так, для общей суммы квадратов требуется (n-1) независимых отклонений, т.к. по совокупности из n единиц после расчета среднего уровня свободно варьируют лишь (n-1) число отклонений.

n – одно

При расчете объясненной или факторной суммы квадратов используются теоретические (расчетные) значения результативного признака , найденного по линии регрессии = a + bx.

В линейной регрессии

Вывод: т.к. линейный коэффициент корреляции => ,

где - общая дисперсия признака

- дисперсия признака y, обусловленная фактором x.

Т.к. при заданном объеме наблюдений по x и y факторная сумма квадратов при линейной регрессии зависит только от одной константы – коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы.

Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов.

Число степеней свободы остаточной суммы квадратов при линейной регрессии n-2.

df: n-1 = 1 + (n-2)

Разделив каждую сумму квадратов на соответствующее число степеней свободы, получим средний квадрат степени ≡ дисперсия на одну степень свободы Д:

Определение дисперсии на одну степень свободы приводим к сравнимому виду. Так вводится величина:

F – отношение (F – критерий) ,

где F – критерий проверки нулевой гипотезы Но: .

Если Но справедлива, то . Для Но необходимо опровержение, чтобы Дфакт превышала Дост в несколько раз.

Английский статистик Снедекор разработал таблицы критических значений F -отношений для разных уровней существенности нулевой гипотезы и для разных df.

Табличное значение F -критерия – это максимальная величина , т.е. , которая может иметь место при случайном их расхождении для данного уровня вероятности наличия Но.

Вычисленное значение F -отношения признается достоверным (отличным от единицы), если оно больше табличного.

В этом случае нулевая гипотеза Но об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи:

Fфакт>Fтабл: Но – отклоняется.

Ели же Fфакт<Fтабл, то вероятность нулевой гипотезы Но выше заданного уровня (например, 0,05) и она не может быть отклонена без серьезного риска сделать вывод о наличии связи. В этом случае уравнение регрессии считается незначимым. Но не отклоняется.

Пример:

общая сумма

квадратов

- фактическая сумма квадратов

- остаточная сумма квадратов.

F=

F­α=0,05=6,61 Fα=0,01=16,26

по табл по табл

Т.к. Fфакт>Fтабл как при 1%-ном, так и при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).

Величина F -критерия связана с коэффициентом детерминации r2.

Факторную сумму квадратов отклонений можно представить как:

факт. , а остаточную сумму квадратов – как

ост. .

Тогда значение F -критерия:

.

В примере. r2=0,982, тогда

F=.

(некоторое несовпадение с предыдущим результатом F=278 объясняется ошибками округления).

Оценка значимости уравнения регрессии дается в виде таблицы дисперсионного анализа:

Дисперсионный анализ результатов регрессии.

Источники вариации Число степеней своюоды Сумма КО Дисперсия на одну степень свободы F -отношение
фактическое Табличное при α=0,05
общая     - - -
объясненная (факторная)           6,61
остаточная         -

Для оценки значимости отдельных параметров по каждому из праметров определяется его стандартная ошибка: mb и ma.

Стандартная ошибка ,

коэффициента регрессии

где S2 – остаточная дисперсия на 1 степень свободы.

.

Величина стандартной ошибки совместно с t – распределением Стьюдента при (n-2) степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительных интервалов.

Для оценки существенности коэффициента регрессии его величина сравнивается с его стандартной ошибкой, т.е. определяется фактическое значение t – критерия Стьюдента

tb= стандартная ошибка коэффициента регрессии

которое затем сравнивается с табличным значением при определенном уровне значимости α и числе степеней свободы (n-2).

В примере фактическое значение t -критерия для коэффициента регрессии составило:

tb=.

Этот же результат получим tb=.

Таким образом tb2=F.

Для α=0,05 (для двустороннего критерия) и для df=5 табличное значение tb=2,57.

Так как => гипотезу о несущественности коэффициента

регрессии можно отклонить.

Доверительный интервал стандартная ошибка

для коэффициента регрес- b коэффициента регрессии

сии:

95%-ные границы для коэффициента регрессии в нашем примере составят:

, то есть

.

Стандартная ошибка

параметра a:


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



Сейчас читают про: