Отбор факторов при построении множественной регрессии

Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

1) быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то нужно придать ему количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости учитывается место нахождения недвижимости: районы могут быть проранжированы);

2) не должны быть коррелированны между собой и тем более находиться в точной функциональной связи.

Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель, и параметры уравнения регрессии оказываются неинтерпретируемыми. Так, в уравнении y = a + b 1 × x 1 + b 2 × x 2 + e, предполагается, что факторы x 1 и x 2 независимы друг от друга, т.е. rx 1 x 2 = 0. Тогда можно говорить, что параметр b 1 измеряет силу влияния фактора x 1 на результат y при неизменном значении фактора x 2. Если же rx 1 x 2 = 1, то с изменением фактора x 1 фактор x 2 не может оставаться неизменным. Отсюда b 1 и b 2 нельзя интерпретировать как показатели раздельного влияния x 1 и x 2 на y.

Пример 3.1. Рассмотрим регрессию себестоимости единицы продукции, руб., (y) от заработной платы работника, руб., (x) и производительности труда, единиц в час, (z).

y = 22600 – 5 × x – 10 × z + e.

Коэффициент регрессии при переменной z показывает, что с ростом производительности труда на 1 ед. себестоимость продукции снижается в среднем на 10 руб. при постоянном уровне оплаты труда. Вместе с тем параметр при x нельзя интерпретировать как снижение себестоимости единицы продукции за счет роста заработной платы. Отрицательное значение коэффициента регрессии при переменной x в данном случае обусловлено высокой корреляцией между x и z (rxz = 0,95). Поэтому роста заработной платы не может быть при постоянной производительности труда, если не принимать во внимание инфляцию.

Включаемые во множественную регрессию факторы должны объяснить вариацию зависимой переменной. Если строится модель с набором m факторов, то для неё рассчитывается показатель детерминации R 2, который фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии m факторов. Влияние других, не учтенных в модели факторов, оценивается как (1 – R 2) с соответствующей остаточной дисперсией S 2.

При дополнительном включении в регрессию (p + 1) фактор коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться:

R 2 p + 1 ³ R 2 p и S 2 p + 1 £ S 2 p.

Если этого не происходит и данные показатели практически не отличаются друг от друга, то включаемый в анализ фактор xp + 1 не улучшает модель и является лишним. Так, если для регрессии, включающей пять факторов, коэффициент детерминации составил 0,857 и включение шестого фактора дало коэффициент детерминации 0,858, то вряд ли целесообразно дополнительно включать в модель этот фактор.

Насыщение модели лишними факторами не только снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по t -критерию Стьюдента.

Несмотря на то, что теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов производится на основе качественного теоретико-экономического анализа. Однако теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов обычно проводится в две стадии: на первой отбираются факторы исходя из сути проблемы; на второй – на основе матрицы показателей корреляции и определения t -статистики для параметров регрессии.

Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменных явно коллинеарны, т.е. находятся между собой в линейной зависимости, если rxixj ³ 0,7.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: