Проверка значимости параметров линейной парной регрессии

После построения линейной модели регрессии, про­водится проверка значимости как уравнения (модели) в целом, так и отдель­ных его параметров.

Проверить значимость уравнения регрессии — значит устано­вить, соответствует ли математическая модель, выражающая зависимость между переменными, реальным статистическим данным и достаточно ли включенных в уравнение объясняющих переменных (од­ной или нескольких) для описания зависимой переменной.

Проверка значимости уравнения регрессии в целом дается с по­мощью критерия Фишера. При этом выдвигается нулевая ги­потеза, что коэффициент регрессии равен нулю, т. е. = 0, и, сле­довательно, фактор х не оказывает влияния на результат у.

Непосредственному расчету критерия предшествует анализ дисперсии. Центральное место в нем занимает разложе­ние общей суммы квадратов отклонений переменной y от средне­го значения на две части — «объясненную» и «необъясненную»:

, (3.18)

или , (3.19)

где общая сумма квадратов отклонений зависимой переменной от средней;

сумма квадратов отклонений, объясненная регрессией;

остаточная сумма квадратов отклонений, характеризующая влияние неучтенных факторов.

Общая сумма квадратов отклонений индивидуальных значе­ний результативного признака y от среднего значения вызвана влиянием множества причин. Условно разделим всю совокуп­ность причин на две группы: изучаемый фактор х и прочие факторы. Если фактор не оказывает влияния на результат, то линия регрес­сии на графике параллельна оси ох и .Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадет с оста­точной. Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов.

Поскольку не все точки поля корреляции лежат на линии рег­рессии, то всегда имеет место их разброс как обусловленный вли­янием фактора х, т. е. регрессией у по х, так и вызванный действием прочих причин (необъясненная вариация). Пригод­ность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариа­цию. Очевидно, что если сумма квадратов отклонений, обуслов­ленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказыва­ет существенное воздействие на результат y. Это равносильно то­му, что коэффициент детерминации будет приближаться к единице.

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим дисперсии:

общая дисперсия

обусловленная регрессией дисперсия

остаточная дисперсия

Для рассмотренного примера 4.2 соответствующие дисперсии будут равны:

;

.

При отсутствии линейной зависимости между зависимой и объясняющей переменной случайные величины и имеют распределение соот­ветственно с и степенями свободы, а их отношение распределение с теми же степенями свободы [Ссылка]. Поэтому уравнение регрессии значимо на уровне значимости , если факти­чески наблюдаемое значение статистики

, (3.23)

где табличное значение критерия Фишера – Снедекора,

определенное на уровне значимости при и степенях свободы.

Учитывая смысл величин и , можно сказать, что значе­ние показывает, в какой мере регрессия лучше оценивает значе­ние зависимой переменной по сравнению с ее средней .

В случае линейной парной регрессии , поэтому и , и следовательно уравнение рег­рессии значимо на уровне ,если

.

Если нулевая гипотеза справедлива, то факторная и остаточ­ная дисперсии не отличаются друг от друга. Для необходимо опровержение, чтобы обусловленная регрессией дисперсия превышала остаточ­ную в несколько раз. Английским статистиком Снедекором раз­работаны таблицы критических значений оотношений при раз­ных уровнях существенности нулевой гипотезы и различном чис­ле степеней свободы. Табличное значение критерия — это мак­симальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероят­ности наличия нулевой гипотезы. Вычисленное значение отношения признается достоверным (отличным от единицы), если оно больше табличного. В этом случае нулевая гипотеза об отсутствии признаков отклоняется и делается вывод о существенности этой связи: отклоняется.

Если жевеличина окажется меньше табличной ,то нулевой гипотезы выше заданного уровня (например 0,05) и она не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае регрессии считается статистически незначимым. не отклоняется.

Предварительно для рассматриваемого примера 3.2 по формуле 4.23 определим расчетное значение критерия:

.

Для подтверждения или опровержения нулевой гипотезы на уровне значимости при и степенях свободы получим табличное значение критерия:

.

Поскольку при 5%-ном уровне значимости, то можно сделать вывод о значимости урав­нения регрессии (связь доказана).

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью для параметров уравнения парной регрессии определяются средние квадратические ошибки.

Средне квадратические ошибки коэффициентов регрессии определяется на основании формулы:

где остаточная среднеквадратическая ошибка, вычисляемая на основании формулы (3.22).

Для нашего примера 3.2 величины средней квадратической ошибки параметра составит:

.

Величина среднеквадратических ошибок совместно с распределением Стьюдента при n — 2 степенях свободы применяется для провер­ки существенности коэффициентов парной регрессии и для расчета их доверительных интервалов.

Для оценки существенности коэффициента парной регрессии его ве­личина сравниваются с их среднеквадратическими ошибками, т. е. определяются фактические значения критерия Стьюдента. Фактические значения критерия – Стьюдента получают по формулам:

. (3.25)

Для рассмотренного примера 3.2 рассчитаем фактическое значение критерия Стьюдента для параметра :

.

На уровне значимости и числе степе­ней свободы табличное значение .Так как фактическое значение критерия превышает табличное, то, следовательно, гипотезу о несущественности коэффициента регрессии можно отклонить.

Этот же результат получим, извлекая квадратный корень из найденного ранее F -критерия, т. е.

Табличное значение статистики Стьюдента используется для интервальной оценки коэффициентов регрессии. Например, доверительный интервал для параметра имеет вид:

. (3.26)

В условиях нашего примера 4.2 для коэффициента регрессии на уровне значимости границы интервала составят:

Для коэффициента регрессии в примере 95 %-ные границы составят:

т. е.

Аналогичным образом осуществляется оценка значимости коэффициента парной регрессии и его интервальная оценка.

Среднеквадратическая ошибка параметра рассчитывается по формуле:

Методика оценки значимости этого параметра аналогично тому, что и для параметра . То есть вычисляется расчетное значение критерия Стьюдента:

. (3.28)

Его величина сравнивают с табличным значением .


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: