Для оценки качества построенной модели используют следующие показатели:
· средняя ошибка аппроксимации – характеризует среднее отклонение расчетных значений от фактических значений y:
. | (2.9) |
Если не превышает 10%, то качество аппроксимации считают очень хорошим; если свыше 10% до 12% – хорошим; если свыше 12% до 15% – удовлетворительным; если превышает 15% – неудовлетворительным;
· коэффициент (индекс) детерминации (квадрат коэффициента корреляции для парной линейной регрессии) – характеризует долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у:
, | (2.10) |
где в числителе записана дисперсия фактора x или дисперсия результативного признака y, обусловленная факторным признаком x, а в знаменателе – общая дисперсия результативного признака y. На основе дисперсионного анализа можно получить другое выражение коэффициента детерминации. Для этого записывают основное уравнение дисперсионного анализа
, | (2.11) |
где – общая сумма квадратов отклонений; – сумма квадратов отклонений, обусловленная регрессией («объяснённая» или «факторная»); – сумма квадратов отклонений остатков («остаточная»).
Можно доказать, что третье слагаемое в формуле (2.11) несущественно отличается от нуля. Тогда коэффициент детерминации можно представить в виде
. | (2.12) |
Заменяя числитель данного уравнения правой частью уравнения регрессии в отклонениях (2.7), можно доказать, что для линейной корреляции :
; |
· F-тест – состоит в проверке гипотезы о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняют сравнение фактического и критического (табличного) значений F-критерия Фишера. определяют по формуле
. | (2.13) |
Таким образом, – это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости , при котором ещё можно признать статистическую значимость уравнения регрессии. Уровень значимости характеризует вероятность отвергнуть правильную гипотезу при условии, что она верна. Тогда вероятность принятия правильной гипотезы равна . Обычно уровень значимости принимают равным: 0,01 (1%) – для высокой точности; 0,05 (5%) – для обычной точности; 0,1 (10%) – для низкой точности.
Если , то гипотезу о случайной природе оцениваемых характеристик отклоняют и принимают гипотезу об их статистической значимости и надёжности. Если , то гипотезу не отклоняют и признают статистическая незначимость, ненадежность уравнения регрессии.
· t-критерий Стъюдента и доверительные интервалы каждого из показателей. Выдвигают гипотезу о случайной природе показателей, т. е. о незначимом их отличии от нуля. Оценку значимости параметров уравнения регрессии выполняют с помощью t-статистик или t-критерия Стьюдента путем сопоставления их абсолютных значений с величиной случайной ошибки:
. | (2.14) |
Случайные ошибки параметров линейной регрессии определяют по формулам:
; | (2.15) | |
. | (2.16) |
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством
. |
Сравнивая фактическое и критическое (табличное) значения t-статистик, принимают или отклоняют гипотезу . Если , то гипотезу отклоняют и принимают гипотезу , т. е. или не случайно отличаются от нуля и сформировались под влиянием систематически действующего факторного признака х. В этом случае для соответствующего параметра строят доверительный интервал. Если , то гипотезу не отклоняют, признают случайную природу формирования или и доверительный интервал не строят.
Таким образом, – это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости , при котором ещё можно признать статистическую значимость соответствующего параметра уравнения регрессии.
Для расчета доверительных интервалов определяют предельную ошибку (половину ширины доверительного интервала) для каждого показателя:
. | (2.18) |
Формулы для расчета доверительных интервалов имеют следующий вид:
. | (2.19) |
В пределы соответствующего доверительного интервала с вероятностью попадает фактическое (реальное) значение параметра или . Если в эти границы попадает нуль, т. е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимают равным нулю, так как он не может одновременно принимать и положительное и отрицательное значения.
2.6. Прогнозирование значений результативного признака
с использованием модели линейной регрессии
Различают два вида прогнозных оценок: точечную и интервальную.
Точечную оценку (наиболее вероятное прогнозное значение) определяют путем подстановки в уравнение регрессии прогнозного значения : .
Интервальные оценки прогноза сами бывают двух видов: для наиболее вероятного (среднего) значения и для индивидуального (отдельного) значения .
Интервальная оценка для наиболее вероятного (среднего) значения заключается в расчёте доверительного интервала, в который с вероятностью попадёт фактическое (реальное) среднее значение .
При этом вычисляют среднюю стандартную ошибку прогноза по формуле
. | (2.20) |
Данная формула показывает, что наименьшее значение средней стандартной ошибки прогноза будет при . Чем больше разность между и , тем ошибка прогноза больше, шире доверительный интервал и прогноз менее определённый.
Затем строят доверительный интервал прогноза для наиболее вероятного (среднего) значения :
(2.21) |
Для этого определяют половину ширины этого интервала , а также его нижнюю и верхнюю границы. В пределы этих границ с вероятностью попадёт фактическое (реальное) среднее значение .
Интервальная оценка для индивидуального (отдельного) значения заключается в расчёте доверительного интервала, в который с вероятностью попадёт любое индивидуальное (отдельное) значение .
Для ожидаемого индивидуального (отдельного) значения уравнение ошибки прогноза имеет вид:
. | (2.22) |
Наименьшее значение ошибки прогноза будет при .
Затем строят доверительный интервал прогноза для индивидуального значения :
(2.23) |
Для этого определяют половину ширины этого интервала , а также его нижнюю и верхнюю границы. В пределы этих границ с вероятностью попадёт любое индивидуальное (отдельное) значение .