Наиболее часто в практических расчетах для оценки качества всего уравнения в целом применяется коэффициент детерминации
, который рассчитывается по формуле
, (2.2.2)
где
. Коэффициент детерминации характеризует долю общего разброса значений зависимой переменной
, объясненного уравнением регрессии. Считается, что чем больше эта доля, тем лучше уравнение регрессии описывает исследуемую зависимость. В общем случае
.
Коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Это значит, что при добавлении новых объясняющих переменных значение коэффициента детерминации будет расти, хотя это и не обязательно означает улучшение качества регрессионной модели. Поэтому предпочтительнее использовать скорректированный коэффициент детерминации
, определяемый по формуле
. (2.2.3)
Соотношение (2.4.2) может быть представлено в следующем виде:
. (2.2.4)
Обычно приводятся данные как по
, так и по
. Доказано, что
увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когда t -статистика для этой переменной по модулю больше единицы.
Оценка значимости уравнения множественной регрессии осуществляется путем проверки гипотезы о статистической значимости коэффициента детерминации:
,
.
Для проверки гипотезы используется следующая F- статистика:
. (2.2.5)
Проверка данной гипотезы равносильна проверке гипотезы о статистической незначимости уравнения регрессии:

(все коэффициенты линейной регрессии, за исключением свободного члена, равны нулю). Ведь если коэффициенты равны нулю для генеральной совокупности, то уравнение регрессии должно иметь вид
, а коэффициент детерминации
и F -статистика Фишера также равны нулю. При этом их оценки для случайной выборки, конечно, отличаются от нуля.
Величина F при выполнении предпосылок МНК и при справедливости
имеет распределение Фишера. При заданном уровне значимости
по таблицам критических точек распределения Фишера находится критическое значение
. Если
, то основную гипотезу отвергают и принимают альтернативную гипотезу о статистической значимости уравнения регрессии. Если
, то основную гипотезу о незначимости уравнения регрессии не отвергают (уравнение модели признается незначимым).
Пример 2.2.3
Проверить качество оцененной модели (2.1.12) с помощью коэффициента детерминации.
Решение. Значение коэффициента детерминации рассчитаем по формуле (2.2.2):
.
Значение остаточной суммы квадратов отклонений вычислено в примере 2.1.2: ESS= 0,623. Вычисление TSS (общей суммы квадратов отклонений зависимой переменной от ее среднего выборочного значения) оформим в виде табл. 2.2.1.
Таблица 2.2.1
| | |
| 1,8 | 3,24 | |
| -1,2 | 1,44 | |
| 8,9 | 1,7 | 2,89 |
| 1,8 | 3,24 | |
| 7,1 | -0,1 | 0,01 |
| 3,2 | -4 | |
| Сумма | 26,28 |
Таким образом,
.
Анализ статистической значимости коэффициента детерминации
осуществляется на основе F -статистики (2.2.5):
.
Критическое значение для доверительной вероятности 0,95 равно
. Так как
, то коэффициент детерминации признается статистически значимым. Таким образом, построенное уравнение регрессии объясняет 97,7 % разброса зависимой переменной.
По формуле (2.2.4) скорректируем значение коэффициента детерминации с учетом числа факторных переменных:
,
что несколько меньше, чем обычный коэффициент детерминации.
1. В чем заключается нулевая гипотеза при проверке значимости коэффициентов регрессии?
2. Как проверяется значимость коэффициентов регрессии?
3. Как строятся интервальные оценки коэффициентов регрессии и в чем их суть?
4. В чем суть коэффициента детерминации
?
5. Чем скорректированный коэффициент детерминации отличается от обычного?
6. Как осуществляется анализ статистической значимости коэффициента детерминации?