Оценка параметров конкретного уравнения регрессии является лишь отдельным этапом длительного и сложного процесса построения регрессионной модели. Первое же полученное уравнение очень редко является удовлетворительным во всех отношениях. Обычно приходиться постепенно итеративно подбирать форму связи и состав факторных переменных, то есть возвращаться к этапу спецификации модели, анализируя каждый раз качество полученной модели.
Рассмотрим наиболее часто используемые показатели качества линейной регрессионной модели.
1. Дисперсия отклонений:
.
2. Стандартное отклонение результата:
3. Коэффициент вариации результирующего признака
.
Он может служить критерием прогнозных качеств полученной регрессионной модели. Чем он меньше, тем выше прогнозные качества модели.
4. Проверка статистической значимости коэффициентов уравнения регрессии проводится с помощью t-критерия.
5. Коэффициент детерминации (квадрат коэффициента множественной корреляции):
Он используется для анализа общего качества полученной регрессионной модели. Из этого выражения очевиден смысл коэффициента детерминации: он показывает долю дисперсии, объясняемую регрессией в общей дисперсии. Коэффициент детерминации всегда лежит пределах: . Чем ближе значение коэффициента детерминации к единице, тем лучше функция описывает исходный ряд. Недостатком коэффициента детерминации является то, что введение в уравнение дополнительной переменной (даже незначимой) всегда увеличивает его значение.
Точную границу приемлемости показателя D указать для всех случаев невозможно. Нужно принимать во внимание и объем выборки, и содержательную интерпретацию уравнения.
6. Скорректированный (нормированный) коэффициент детерминации:
.
Он исключает вышеназванный недостаток, присущий коэффициенту D. К такой корректировке особенно часто прибегают, если объем выборки меньше 30.
Необходимость введения скорректированного коэффициента детерминации диктуется тем, что при увеличении числа переменных обычный коэффициент детерминации практически всегда увеличивается, но уменьшается число степеней свободы (n-k-1). Введенная корректировка всегда уменьшает значение D, поскольку (n-1)>(n-k-1). В результате величина может стать отрицательной. Это означает, что величина D была близка к нулю до корректировки, и объясняемая с помощью уравнения регрессии доля дисперсии переменной у очень мала.
Из двух вариантов регрессионных моделей, которые отличаются величиной скорректированного коэффициента детерминации, но имеют одинаково хорошие другие критерии качества, предпочтительнее вариант с большим значением скорректированного коэффициента детерминации.
7. Проверка значимости уравнения регрессии в целом проводится с помощью F-критерия.
Расчетное значение этого критерия определяется по формуле:
.
Расчетное значение сравнивается с критическим уровнем, который зависит от уровня значимости, числа степеней свободы , числа степеней свободы . Если расчетное значение больше критического – уравнение в целом значимо.
8. На качество модели влияет также степень выполнения основных предпосылок множественной линейной регрессионной модели. К таким предпосылкам относятся предпосылки о независимости и одинаковой распределейности отклонений, кроме того отклонения должны иметь нулевое среднее; предпосылка о неслучайности и независимости объясняющих переменных. Если предпосылки нарушаются, то ухудшаются свойства оценок параметров регрессии.