Оценка существенности параметров линейной регрессии

После того как найдено уравнение линейной регрессии, про­водится оценка значимости как уравнения в целом, так и отдель­ных его параметров.

Оценка значимости уравнения регрессии в целом дается с по­мощью критерия Фишера. При этом выдвигается нулевая ги­потеза, что коэффициент регрессии равен нулю, т. е. = 0, и, сле­довательно, фактор х не оказывает влияния на результат у.

Непосредственному расчету критерия предшествует анализ дисперсии. Центральное место в нем занимает разложе­ние общей суммы квадратов отклонений переменной y от средне­го значения на две части — «объясненную» и «необъясненную»:

где общая сумма квадратов отклонений;

сумма квадратов отклонений, объясненная регрессией;

остаточная сумма квадратов отклонений.

Общая сумма квадратов отклонений индивидуальных значе­ний результативного признака y от среднего значения вызвана влиянием множества причин. Условно разделим всю совокуп­ность причин на две группы: изучаемый фактор х и прочие факторы. Если фактор не оказывает влияния на результат, то линия регрес­сии на графике параллельна оси ох и .Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадет с оста­точной. Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов.

Поскольку не все точки поля корреляции лежат на линии рег­рессии, то всегда имеет место их разброс как обусловленный вли­янием фактора х, т. е. регрессией у по х, так и вызванный действием прочих причин (необъясненная вариация). Пригод­ность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариа­цию. Очевидно, что если сумма квадратов отклонений, обуслов­ленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказыва­ет существенное воздействие на результат у. Это равносильно то­му, что коэффициент детерминации будет приближаться к единице.

Любая сумма квадратов отклонений связана с числом степе­ней свободы , т.е. с числом свободы неза­висимого варьирования признака. Число степеней свободы свя­зано с числом единиц совокупности ис числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых откло­нений из п возможных требуется для образования данной суммы квадратов. Так, для общей суммы квадратов требуется независимых отклонений, ибо по совокупности из п единиц после расчета среднего уровня свободно варьируют лишь число отклонений. Например, имеем ряд значений . Среднее из них равно 3, и тог­да п отклонений от среднего составят: —2; —1; 0; 1; 2. Так как то свободно варьируют лишь четыре отклонения, а пятое отклонение может быть определено, если предыдущие че­тыре известны.

При расчете объясненной или факторной суммы квадратов используются теоретические (расчетные) значения результативногопризнака ,найденные по линии регрессии: .

В линейной регрессии . В этом нетрудно убедиться, обратившись к формуле линейного коэффициента корреляции:

(4.11)

Из формулы (2.12) видно, что

(4.12)

где общая дисперсия признака y.

дисперсия признака y, обусловленная фактором x.

Соответственно сумма квадратов отклонений, обусловлен­ных линейной регрессией, составит:

Поскольку при заданном объеме наблюдений по х и у фактор­ная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии .то данная сумма квадратов имеет одну степень свободы. К этому же выводу при­дем, если рассмотрим содержательную сторону расчетного значе­ния признака у, т. е. . Величина ух определяется по уравнению линейной регрессии: .Параметр можно определить как .Подставив выражение параметра в линейную модель, получим:

.

Отсюда видно, что при заданном наборе переменных у и х расчетное значение является в линейной регрессии функцией только одного параметра — коэффициента регрессии. Соответ­ственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

Существует равенство между числом степеней свободы об­шей, факторной и остаточной суммами квадратов. Число степе­ней свободы остаточной суммы квадратов при линейной регрес­сии составляет п — 2. Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку мы исполь­зуем среднюю вычисленную по данным выборки, то теряем одну степень свободы, т. е. .

Итак, имеем два равенства:

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D.

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и оста­точную дисперсии в расчете на одну степень свободы, получим величину отношения ( критерий):

где критерий для проверки нулевой гипотезы

Если нулевая гипотеза справедлива, то факторная и остаточ­ная дисперсии не отличаются друг от друга. Для необходимо опровержение, чтобы факторная дисперсия превышала остаточ­ную в несколько раз. Английским статистиком Снедекором раз­работаны таблицы критических значений отношений при раз­ных уровнях существенности нулевой гипотезы и различном чис­ле степеней свободы. Табличное значение критерия — это мак­симальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероят­ности наличия нулевой гипотезы. Вычисленное значение отношения признается достоверным (отличным от единицы), если оно больше табличного. В этом случае нулевая гипотеза об отсутствии признаков отклоняется и делается вывод о существенности этой связи: отклоняется.

Если жевеличина окажется меньше табличной ,то нулевой гипотезы выше заданного уровня (например 0,05) и она не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае регрессии считается статистически незначимым. не отклоняется.

В рассматриваемом примере:

Поскольку как при 1%-ном, так и при 5%-ном уровне значимости, то можно сделать вывод о значимости урав­нения регрессии (связь доказана).

Величина F -критерия связана с коэффициентом детермина­ции . Факторную сумму квадратов отклонений можно предста­вить как

а остаточная сумма квадратов – как

Тогда значение критерия можно выразить как

В нашем примере Тогда (некоторое несовпадение с предыдущим результатом объясняется ошибками округления).

Оценка значимости уравнения регрессии обычно дается в ви­де таблицы дисперсионного анализа (табл. 4.2).

Таблица 4.2

Дисперсионный анализ результатов регрессии

Источники вариации Число степеней свободы Сумма квадратов отклонений Дисперсия на одну степень свободы F – отношение
фактическое Табличное при
Общая     - - -
Объясненная         6,61
Остаточная         -

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка: и .

Стандартная ошибка коэффициента регрессии определяется по формуле

(4.14)

где остаточная дисперсия на одну степень свободы.

Для нашего примера величина стандартной ошибки коэффи­циента регрессии составила:

Величина стандартной ошибки совместно с распределением Стьюдента при n — 2 степенях свободы применяется для провер­ки существенности коэффициента регрессии и для расчета его доверительных интервалов.

Для оценки существенности коэффициента регрессии его ве­личина сравнивается с его стандартной ошибкой, т. е. определяется фактическое значение распределением Стьюдента: , которое затем сравнивается с табличным значением при определен­ном уровне значимости и числе степеней свободы ().

В рассматриваемом примере фактическое значение t -критериякоэффициента регрессии составило:

Этот же результат получим, извлекая квадратный корень из найденного ранее F -критерия, т. е.

Покажем справедливость равенства

При (для двустороннего критерия) и числе степе­ней свободы 5 табличное значение .Так как фактическое значение критерия превышает табличное, то, следовательно, гипотезу о несущественности коэффициента регрессии можно отклонить. Доверительный интервал для коэффициента регрес­сии определяется как .Для коэффициента регрессии в примере 95 %-ные границы составят:

т. е.

Поскольку коэффициент регрессии в эконометрических ис­следованиях имеет четкую экономическую интерпретацию, то доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, . Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положи­тельные и отрицательные величины и даже ноль, чего не может быть.

Стандартная ошибка параметра a определяется по формуле:

. (4.15)

Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрес­сии; вычисляется критерий: , его величина сравнивается с табличным значением при степенях свободы.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: