Влияние включения в модель переменной, которая не должна быть включена

Допустим, что истинная модель представляется в виде:

а вы считаете, что ею является

и рассчитываете оценку величины b 1, используя формулу

вместо выра­жения Cov (x1, y)/D (х1).

В целом проблемы смещения здесь нет, даже если b1, будет рассчитана непра­вильно. Величина M(b1) остается равной β1, но в общем оценка будет неэффек­тивной. Она будет более неустойчивой, в смысле наличия большей дисперсии относительноβ1, чем при правильном вычислении.

Это можно легко объяснить интуитивно. Истинная модель может быть записана в виде:

Таким образом, если вы строите регрессионную зависимость у от х1, и хг, то b1 будет являться несмещенной оценкой величины β1, а β2 будет несмещенной оценкой нуля (при выполнении условий Гаусса—Маркова). Практически вы обнаруживаете для себя, что β2, равно нулю. Если бы вы заранее поняли, что β2 равно нулю, то могли бы использовать эту информацию для исключения и применить парную регрессию, которая в данном случае является более эффективной.

Утрата эффективности в связи со включением х2 вслучае, когда она не дол­жна была быть включена, зависит от корреляции между х1, и х2.

Сравните дис­персии величины β1 при построении парной и множественной регрессии.

  Парная регрессия   Множественная регрессия

Дисперсия в общем окажется большей при множественной регрессии, и разница будет тем большей, чем ближе коэффициент корреляции к единице или -1. Единственным исключением в связи с проблемой утраты эффективности яв­ляется вариант, когда коэффициент корреляции точно равен нулю. В этом случае оценка b1 для множественной регрессии совпадает с оценкой для парной

регрессии. Доказательство этого опустим.

 




double arrow
Сейчас читают про: