После проверки значимости каждого коэффициента регрессии обычно проверяется общее качество уравнения регрессии. Для этой цели используется множественный коэффициент детерминации (или просто коэффициент детерминации) , который вычисляется по формуле
. (3.20)
Как и в случае парной регрессии, коэффициент детерминации характеризует долю вариации зависимой переменной, обусловленной регрессией, или изменчивостью объясняющих переменных: чем ближе к единице, тем лучше регрессия описывает зависимость между объясняющими и результирующей переменными. Поэтому естественно желание построить регрессию с наибольшим .
Вместе с тем использование только одного коэффициента детерминации для выбора наилучшего уравнения регрессии может оказаться недостаточным. На практике нередко встречаются ситуации, когда плохая модель регрессии может дать сравнительно высокий коэффициент детерминации .
Недостатком коэффициента детерминации является то, что он, вообще говоря, увеличивается при добавлении в модель новых объясняющих переменных, хотя это и не обязательно означает улучшение качества модели. В этом смысле предпочтительнее использовать «исправленный» коэффициент детерминации , определяемый по формуле
|
|
. (3.21)
Из (3.21) следует, что для m > 1 и чем больше число объясняющих переменных m, тем меньше по сравнению с . Другими словами, он корректируется в сторону уменьшения с ростом числа объясняющих переменных.
После проверки индивидуальной статистической значимости каждого из коэффициентов регрессии обычно анализируется совокупная значимость всех коэффициентов. Такой анализ осуществляется на основе проверки гипотезы о значимости уравнения множественной регрессии – гипотезы об одновременном равенстве нулю всех коэффициентов регрессии при объясняющих переменных:
Н0: a 1 = a 2 = … = am = 0.
Если данная гипотеза не отклоняется, то делается вывод о том, что совокупное влияние всех m объясняющих переменных X 1, X 2, …, Xm модели на результирующую переменную Y можно считать статистически незначимым, а общее качество уравнения регрессии невысоким.
Для проверки гипотезы Н0 используется следующая F -статистика:
. (3.22)
При выполнении предпосылок 1 0 – 6 0 множественного регрессионного анализа (см. п. 3.2) и при справедливости нулевой гипотезы Н0 статистика F имеет распределение Фишера с n 1 = m и n 2 = n – m – 1 степенями свободы. Следовательно, критерий значимости уравнения множественной регрессии на уровне a (с надежностью g = 1 – a) может быть записан в виде:
F ³ F 1 – a (n 1, n 2),
где F 1 – a (n 1, n 2) – квантиль порядка (1 – a) F -распределения Фишера с n 1 = m и n 2 = n – m – 1 степенями свободы.
|
|
Пример 3.3. По данным примера 3.1 определить множественный коэффициент детерминации и проверить значимость полученного уравнения регрессии Y на X 1 и X 2 с надежностью 0,95.
Решение. Из итоговой строки табл. 3.2 находим , откуда (т). Также с помощью табл. 3.2 определим . Теперь по (3.20) множественный коэффициент детерминации
.
Коэффициент детерминации свидетельствует о том, что вариация исследуемой зависимой переменной Y – сменной добычи угля на одного рабочего – на 81,2% объясняется изменчивостью включенных в модель объясняющих переменных – мощности пласта X 1 и уровня механизации работ X 2.
По формуле (3.21) вычислим также «исправленный» коэффициент детерминации:
.
Зная , проверим значимость уравнения регрессии на уровне a = 1 – g = 0,05. Значение F -статистики критерияпо (3.22) равно
,
что больше табличного значения квантиля F 1 – a (m, n – m – 1) = F 0,95(2,7) = 4,74 (см. табл. 3 Приложения). Следовательно, построенное уравнение регрессии значимо, т.е. исследуемая зависимая переменная Y достаточно хорошо описывается включенными в регрессионную модель переменными X 1 и X 2. g