Другим важным направлением использования статистики Фишера является проверка гипотезы о равенстве нулю не всех коэффициентов регрессии одновременно, а только некоторой части этих коэффициентов. Данное использование статистики F позволяет оценить обоснованность исключения или добавления в уравнение регрессии некоторых наборов объясняющих переменных, что особенно важно при совершенствовании линейной регрессионной модели. Пусть первоначально построенное по n наблюдениям уравнение регрессии имеет вид
Y = b0 + b1X1 + b2X2 +... + bm-kXm-k +... + bmXm, (6.39)
и коэффициент детерминации для этой модели равен R12. Исключим из рассмотрения k объясняющих переменных (не нарушая общности, положим, что это будут k последних переменных). По первоначальным n наблюдениям для оставшихся факторов построим другое уравнение регрессии:
Y = с0 + с1X1 + с2X2 +... + сm-kXm-k, (6.40)
для которого коэффициент детерминации равен R22. Очевидно, R2 ≤R2, так как каждая дополнительная переменная объясняет часть (пусть незначительную) рассеивания зависимой переменной. Возникает вопрос: существенно ли ухудшилось качество описания поведения зависимой переменной Y. На него можно ответить, проверяя гипотезу H0: R12 − R22 = 0 и используя статистику
|
|
F=R2/1-R2*n-m-1/k (2.41)
В случае справедливости H0 приведенная статистика F имеет распределение Фишера с числами степеней свободы ν1 = k, ν2 = n − m − 1.
Здесь (R12 −R22) − потеря качества уравнения в результате отбрасывания k объясняющих переменных; k − число дополнительно появившихся степеней свободы; (1−R12)/(n−m−1) − необъясненная дисперсия первоначального уравнения. Следовательно, мы попадаем в ситуацию аналогичную (6.37). По таблицам критических точек распределения Фишера находят Fкр. = Fα;m;n−m−1 (α − требуемый уровень значимости).
Если рассчитанное значение Fнабл. статистики (6.41) превосходит Fкр., то нулевая гипотеза о равенстве коэффициентов детерминации (фактически об одновременном равенстве нулю отброшенных k коэффициентов регрессии) должна быть отклонена. В этом случае одновременное исключение из рассмотрения k объясняющих переменных некорректно, так как R12существенно превышаетR22. Это означает, что общее качество первоначального уравнения регрессии существенно лучше качества уравнения регрессии с отброшенными переменными, так как оно объясняет гораздо большую долю разброса зависимой переменной. Если же, наоборот, наблюдаемая F-статистика невелика (т. е. меньше, чем Fкр.), то это означает, что разность R12− R22 незначительна. Следовательно, можно сделать вывод, что в этом случае одновременное отбрасывание k объясняющих переменных не привело к существенному ухудшению общего качества уравнения регрессии, и оно вполне допустимо. Аналогичные рассуждения могут быть использованы и по поводу обоснованности включения новых k объясняющих переменных. В этом случае рассчитывается F-статистика. Если она превышает критическое значение Fкр., то включение новых переменных объясняет существенную часть необъясненной ранее дисперсии зависимой переменной.
|
|
Поэтому такое добавление оправдано. Однако отметим, что добавлять переменные целесообразно, как правило, по одной. Кроме того, при добавлении объясняющих переменных в уравнение регрессии логично использовать скорректированный коэффициент детерминации (6.35), т. к. обычный R2 всегда растет при добавлении новой переменной; а в скорректированном R2одновременно растет величина m, уменьшающая его. Если увеличение доли объясненной дисперсии при добавлении новой переменной незначительно, то R2 может уменьшиться. В этом случае добавление указанной переменной нецелесообразно. Заметим, что для сравнения качества двух уравнений регрессии по коэффициенту детерминации R2 обязательным является требование, чтобы зависимая переменная была представлена в одной и той же форме, и число наблюдений n для обеих моделей было одинаковым. Например, пусть один и тот же показатель Y моделируется двумя уравнениями:
линейным Y = β0 + β1X1 + β2X2 + ε и
лог-линейным lnY = β0 + β1X1 + β2X2 + ε.
Тогда их коэффициенты детерминации R12 и R22 рассчитываются по формулам:
Так как знаменатели дробей в приведенных соотношениях различны, то прямое сравнение коэффициентов детерминации в этом случае будет некорректным.