Ошибки спецификации модели регрессии: невключение «существенного» фактора, включение «несущественного» фактора. Статистические последствия неправильной спецификации. RESET-тест

На практике чаще всего вероятностная модель, описывающая зависимость между факторами неизвестна (неизвестна точная спецификация модели), поэтому её приходится подгонять под выборочные данные, добавляя или убирая влияющие переменные, изменяя вид зависимой переменной. Типичные ошибки:

1. Невключение в модель значимого («существенного») фактора (недооценка модели) – omitted variable problem.

Пр. пусть истинная модель: , а мы рассматриваем укороченную модель , то есть упускаем из виду влияние фактора z, это отразится в остатках регрессии: .

Теорема: При невключении в модель одного или нескольких значимых факторов

А) если оценки коэффициентов будут несостоятельными и асимптотически смещёнными.

Б) Выборочные стандартные ошибки коэффициентов в недооценённой модели меньше стандартных ошибок в «истинной модели». Чем меньше факторов, тем меньше стандартные ошибки.

В) т.е. получаемый квадрат стандартной ошибки регрессии - смещённая оценка дисперсии ошибок регрессии.

2. Включение незначимого фактора (overspecification problem)

Пр. пусть истинная модель: , а мы оцениваем следующую модель: , то есть с «лишним» фактором, который на самом деле не влияет на y, тогда cov(y,z)=cov(x,z)=0, а значит = 0, это иррелевантный фактор.

Теорема: при включении в модель факторов, не коррелирующих с объясняющими и с зависимой переменными, OLS-оценки коэффициентов остаются линейными, несмещёнными и состоятельными, но не наилучшими (не с минимальной дисперсией). В случае нормальной распределенности ошибок к OLS-оценкам в «расширенной» модели применимы все статистические выводы стандартной модели регрессии. Выборочная стандартная ошибка коэффициентов в расширенной модели возрастает, это делает оценки менее точными.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: