Фиктивные переменные в регрессионных моделях

В регрессионных моделях наряду с количественными переменными часто используются качественные переменные, которые выражаются в виде фиктивных (искусственных) переменных, отражающих два противоположных состояния качественного фактора. Например, D =0, если потребитель не имеет высшего образования, D =1, если потребитель имеет высшее образование. Переменная D называется фиктивной, или двоичной переменной, а также индикатором.

Таким образом, кроме моделей, содержащих только количественные переменные, в регрессионном анализе рассматриваются также модели, содержащие лишь качественные переменные (обозначаемые Di), либо те и другие одновременно.

Регрессионные модели, содержащие лишь качественные объясняющие переменные, называются ANOVA – моделями (моделями дисперсионного анализа).

Например, зависимость начальной заработной платы от образования может быть записана так:

,

где D =0, если претендент на рабочее место не имеет высшего образования, D =1, если имеет. Тогда при отсутствии высшего образования начальная заработная плата равна:

а при его наличии

При этом параметр а определяет среднюю начальную заработную плату при отсутствии высшего образования. Коэффициент g показывает, на какую величину отличаются средние начальные заработные платы при наличии и при отсутствии высшего образования у претендента. Проверяя статистическую значимость коэффициента g с помощью t – статистики, можно определить, влияет или нет наличие высшего образования на начальную заработную плату.

Нетрудно заметить, что ANOVA – модели представляют собой кусочно – постоянные функции. Такие модели в экономике крайне редки. Гораздо чаще встречаются модели, содержащие как количественные, так и качественные переменные. Такие модели называются ANCOVA – моделями (моделями ковариационного анализа).

Сначала рассмотрим простую модель заработной платы сотрудника фирмы в зависимости от стажа работы х и пола сотрудника D:

()

где

Тогда для женщин ожидаемое значение заработной платы будет

а для мужчин -:

Эти зависимости являются линейными относительно стажа работы х и различаются только величиной свободного члена. Если коэффициент g является статистически значимым, то можно сделать вывод, что в фирме имеет место дискриминация в заработной плате по половому признаку. При g >0 она будет в пользу мужчин, при g <0 – в пользу женщин. На графике такие зависимости изображаются параллельными прямыми.

В случае, когда качественная переменная принимает на два, а большее число значений, может возникнуть ситуация, которая называется ловушкой фиктивной переменной. Она возникает, когда для моделирования k значений качественного признака используется ровно k бинарных (фиктивных) переменных. В этом случае одна из таких переменных линейно выражается через все остальные, и матрица значений переменных становится вырожденной. Тогда исследователь попадает в ситуацию совершенной мультиколлинеарности. Избежать подобной ловушки позволяет правило:

- если качественная переменная имеет k альтернативных значений, то при моделировании используется только (k-1) фиктивных переменных.



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: