Проверка статистической значимости коэффициентов уравнения регрессии

Как и в случае парной регрессии,статистическая значимость коэффициентов множественной линейной регрессии с m объясняющими переменными проверяется на основе t-статистики: t=bj/Sbj                                      (2.33)

Имеющей в данной ситуации распределение Стьюдента с числом степеней свободы ν = n − m − 1 (n − объем выборки). При требуемом уро-вне значимости α наблюдаемое значение t-статистики сравнивается с критической точкой распределения Стьюдента. 

Коэффициент bj считается статистически незначимым (статистически близким к нулю). Это означает, что фактор Xj фактически линейно не связан с зависимой переменной Y. Его наличие среди объясняющих переменных не оправдано со статистической точки зрения. Не оказывая серьезного влияния на зависимую переменную, он лишь искажает реальную картину взаимосвязи. Поэтому после установления того факта, что коэффициент bj статистически незначим, рекомендуется исключить из уравнения регрессии переменную Xj. Это не приведет к существенной потере качества модели, но сделает ее более конкретной. Зачастую строгая проверка значимости коэффициентов заменяется простым сравнительным анализом.

• Если |t| < 1 (bj < Sbj), то коэффициент статистически незначим.

• Если 1 < |t| < 2 (bj < 2Sbj), то коэффициент относительно значим. В данном случае рекомендуется воспользоваться таблицами.

• Если 2 < |t| < 3, то коэффициент значим. Это утверждение является гарантированным при числе степеней ν > 20 и α ≥ 0.05 (см. таблицу критических точек распределения Стьюдента).

• Если |t| > 3, то коэффициент считается сильно значимым. Вероятность ошибки в данном случае при достаточном числе наблюдений не превосходит 0.001. 

 

Проверка общего качества уравнения регрессии

После проверки значимости каждого коэффициента регрессии обычно проверяется общее качество уравнения регрессии. Для этой цели, как и в случае парной регрессии, используется коэффициент детерминации R2, который в общем случае рассчитывается по формуле:

 R2=1-∑ei2/∑(yi-y)2         (2.34)    

Суть данного коэффициента как доли общего разброса значений зависимой переменной Y, объясненного уравнением регрессии. Как отмечалось, в общем случае 0 ≤ R2 ≤ 1. Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение Y. Поэтому естественно желание построить регрессию с наибольшим R2. Для множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R2.Действительно, каждая следующая объясняющая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной. Это уменьшает (в худшем случае не увеличивает) область неопределенности в поведении Y. Иногда при расчете коэффициента детерминации для получения несмещенных оценок в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы. Вводится так называемый скорректированный (исправленный) коэффициент детерминации 

Можно заметить, что ∑(yi −y)2/(n−1) является несмещенной оценкой общей дисперсии − дисперсии отклонений значений переменной Y от y. При этом число ее степеней свободы равно (n −1). Одна степень свободы теряется при вычислении y. ∑ei2 /(n−m−1) является несмещенной оценкой остаточной дисперсии − дисперсии случайных отклонений (отклонений точек наблюдений от линии регрессии). Ее число степеней свободы равно (n−m−1). Потеря (m + 1) степени свободы связана с необходимостью решения системы (m + 1) линейного уравнения при определении коэффициентов эмпирического уравнения регрессии. Попутно заметим, что несмещенная оценка объясненной дисперсии (дисперсии отклонений точек на линии регрессии от y) имеет число степеней свободы, равное разности степеней свободы общей дисперсии и остаточной дисперсии:

(n − 1) − (n − m − 1) = m.

 

Из (2.36) очевидно, что R2 <R2для m > 1. С ростом значения m скорректированный коэффициент детерминации R2 растет медленнее, чем (обычный) коэффициент детерминации R2. Другими словами, он корректируется в сторону уменьшения с ростом числа объясняющих переменных. Нетрудно заметить, что R2 =R2только при R2 = 1.

R2 может принимать отрицательные значения (например, при R2 = 0). Доказано, что R2 увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когда t-статистика для этой переменной по модулю больше единицы. Поэтому добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации. Обычно в эконометрических пакетах приводятся данные как по R2, так и по R2, являющиеся суммарными мерами общего качества уравнения регрессии. Однако не следует абсолютизировать значимость коэффициентов детерминации. Существует достаточно примеров неправильно специфицированных моделей, имеющих высокие коэффициенты детерминации (обсудим данную ситуацию позже). Поэтому коэффициент детерминации в настоящее время рассматривается лишь как один из ряда показателей, который нужно проанализировать, чтобы уточнить строящуюся модель. 

 

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: