В регрессионных моделях наряду с количественными переменными часто используются качественные переменные, которые выражаются в виде фиктивных (искусственных) переменных, отражающих два противоположных состояния качественного фактора. Например, D =0, если потребитель не имеет высшего образования, D =1, если потребитель имеет высшее образование. Переменная D называется фиктивной, или двоичной переменной, а также индикатором.
Таким образом, кроме моделей, содержащих только количественные переменные, в регрессионном анализе рассматриваются также модели, содержащие лишь качественные переменные (обозначаемые Di), либо те и другие одновременно.
Регрессионные модели, содержащие лишь качественные объясняющие переменные, называются ANOVA – моделями (моделями дисперсионного анализа).
Например, зависимость начальной заработной платы от образования может быть записана так:
,
где D =0, если претендент на рабочее место не имеет высшего образования, D =1, если имеет. Тогда при отсутствии высшего образования начальная заработная плата равна:
|
|
а при его наличии
При этом параметр а определяет среднюю начальную заработную плату при отсутствии высшего образования. Коэффициент g показывает, на какую величину отличаются средние начальные заработные платы при наличии и при отсутствии высшего образования у претендента. Проверяя статистическую значимость коэффициента g с помощью t – статистики, можно определить, влияет или нет наличие высшего образования на начальную заработную плату.
Нетрудно заметить, что ANOVA – модели представляют собой кусочно – постоянные функции. Такие модели в экономике крайне редки. Гораздо чаще встречаются модели, содержащие как количественные, так и качественные переменные. Такие модели называются ANCOVA – моделями (моделями ковариационного анализа).
Сначала рассмотрим простую модель заработной платы сотрудника фирмы в зависимости от стажа работы х и пола сотрудника D:
()
где
Тогда для женщин ожидаемое значение заработной платы будет
а для мужчин -:
Эти зависимости являются линейными относительно стажа работы х и различаются только величиной свободного члена. Если коэффициент g является статистически значимым, то можно сделать вывод, что в фирме имеет место дискриминация в заработной плате по половому признаку. При g >0 она будет в пользу мужчин, при g <0 – в пользу женщин. На графике такие зависимости изображаются параллельными прямыми.
В случае, когда качественная переменная принимает на два, а большее число значений, может возникнуть ситуация, которая называется ловушкой фиктивной переменной. Она возникает, когда для моделирования k значений качественного признака используется ровно k бинарных (фиктивных) переменных. В этом случае одна из таких переменных линейно выражается через все остальные, и матрица значений переменных становится вырожденной. Тогда исследователь попадает в ситуацию совершенной мультиколлинеарности. Избежать подобной ловушки позволяет правило:
|
|
- если качественная переменная имеет k альтернативных значений, то при моделировании используется только (k-1) фиктивных переменных.