Оценка качества и значимости модели линейной регрессии

 

Для оценки качества построенной модели используют следующие показатели:

· средняя ошибка аппроксимации – характеризует среднее отклонение расчетных значений  от фактических значений y:

  . (2.9)

Если  не превышает 10%, то качество аппроксимации считают очень хорошим; если  свыше 10% до 12% – хорошим; если  свыше 12% до 15% – удовлетворительным; если  превышает 15% – неудовлетворительным;

· коэффициент (индекс) детерминации  (квадрат коэффициента корреляции для парной линейной регрессии) – характеризует долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у:

  , (2.10)

где в числителе записана дисперсия фактора x или дисперсия результативного признака y, обусловленная факторным признаком x, а в знаменателе – общая дисперсия результативного признака y. На основе дисперсионного анализа можно получить другое выражение коэффициента детерминации. Для этого записывают основное уравнение дисперсионного анализа

  , (2.11)

где – общая сумма квадратов отклонений; – сумма квадратов отклонений, обусловленная регрессией («объяснённая» или «факторная»); – сумма квадратов отклонений остатков («остаточная»).

Можно доказать, что третье слагаемое в формуле (2.11) несущественно отличается от нуля. Тогда коэффициент детерминации можно представить в виде

  . (2.12)

Заменяя числитель данного уравнения правой частью уравнения регрессии в отклонениях (2.7), можно доказать, что для линейной корреляции :

  ;  

· F-тест – состоит в проверке гипотезы  о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняют сравнение фактического  и критического (табличного)  зна­чений F-критерия Фишера.  определяют по формуле

  . (2.13)

Таким образом, – это максимально возможное значение критерия под влия­нием случайных факторов при данных степенях свободы и уровне значимости , при котором ещё можно признать статистическую значимость уравнения регрессии. Уровень значимости  характеризует вероятность отвергнуть пра­вильную гипотезу при условии, что она верна. Тогда вероятность принятия правильной гипотезы равна . Обычно уровень значимости  принимают равным: 0,01 (1%) – для высокой точности; 0,05 (5%) – для обычной точности; 0,1 (10%) – для низкой точности.

Если , то гипотезу  о случайной природе оцени­ваемых характеристик отклоняют и принимают гипотезу  об их статистической значимости и надёжности. Если , то гипотезу  не от­клоняют и признают статистическая незначимость, ненадежность уравнения регрессии.

· t-критерий Стъюдента и до­верительные интервалы каждого из показателей. Выдвигают гипо­тезу  о случайной природе показателей, т. е. о незначимом их от­личии от нуля. Оценку значимости параметров уравнения регрессии выполняют с помощью t-статистик или t-критерия Стьюдента путем сопос­тавления их абсолютных значений с величиной случайной ошибки:

  . (2.14)

Случайные ошибки параметров линейной регрессии определяют по формулам:

  ; (2.15)
  . (2.16)

Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством

  .  

Сравнивая фактическое  и критическое (табличное)  значения t-статис­тик, принимают или отклоняют гипотезу . Если , то гипотезу  отклоняют и принимают гипотезу , т. е.  или  не случайно от­личаются от нуля и сформировались под влиянием систематически действующего факторного признака х. В этом случае для соответствующего параметра строят доверительный интервал. Если , то гипотезу  не откло­няют, признают случайную природу формирования  или  и доверительный интервал не строят.

Таким образом, – это максимально возможное значение критерия под влия­нием случайных факторов при данных степенях свободы и уровне значимости , при котором ещё можно признать статистическую значимость соответствующего параметра уравнения регрессии.

Для расчета доверительных интервалов определяют предельную ошибку  (половину ширины доверительного интервала) для каждого показателя:

  . (2.18)

Формулы для расчета доверительных интервалов имеют сле­дующий вид:

  . (2.19)

В пределы соответствующего доверительного интервала с вероятностью  попадает фактическое (реальное) значение параметра  или . Если в эти границы попадает нуль, т. е. нижняя граница отрицательна, а верхняя положительна, то оцени­ваемый параметр принимают равным нулю, так как он не может одно­временно принимать и положительное и отрицательное значения.

 

2.6. Прогнозирование значений результативного признака
с использованием модели линейной регрессии

 

Различают два вида прогнозных оценок: точечную и интервальную.

Точечную оценку (наиболее вероятное прогнозное значение)  определяют путем подстановки в урав­нение регрессии  прогнозного зна­чения : .

Интервальные оценки прогноза сами бывают двух видов: для наиболее вероятного (среднего) значения  и для индивидуального (отдельного) значения .

Интервальная оценка для наиболее вероятного (среднего) значения  заключается в расчёте доверительного интервала, в который с вероятностью  попадёт фактическое (реальное) среднее значение .

При этом вычисляют среднюю стандартную ошибку прогноза по формуле

  . (2.20)

Данная формула показывает, что наименьшее значение средней стандартной ошибки прогноза  будет при . Чем больше разность между  и , тем ошибка прогноза больше, шире доверительный интервал и прогноз менее определённый.

Затем строят доверительный интервал прогноза для наиболее вероятного (среднего) значения :

  (2.21)

Для этого определяют половину ширины этого интервала , а также его нижнюю  и верхнюю  границы. В пределы этих границ с вероятностью  попадёт фактическое (реальное) среднее значение .

Интервальная оценка для индивидуального (отдельного) значения  заключается в расчёте доверительного интервала, в который с вероятностью  попадёт любое индивидуальное (отдельное) значение .

Для ожидаемого индивидуального (отдельного) значения  уравнение ошибки прогноза имеет вид:

  . (2.22)

Наименьшее значение ошибки прогноза  будет при .

Затем строят доверительный интервал прогноза для индивидуального значения :

  (2.23)

Для этого определяют половину ширины этого интервала , а также его нижнюю  и верхнюю  границы. В пределы этих границ с вероятностью  попадёт любое индивидуальное (отдельное) значение .





Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: