double arrow

Фиктивные переменные

Модели ANCOVA (модели ковариационного анализа).

Модели, в которых объясняющие переменные носят как качественный, так и количественный характер называются ANCOVA – модели.

Влияние качественного фактора обычно выражают в виде так называемой фиктивной переменной (или переменных, если таких факторов несколько). Такими факторами могут быть: пол, возрастная группа, сезон, национальность. Фиктивная переменная отражает два противоположных состояния качественного фактора: либо фактор действует, либо не действует D =0 или D =1. Фиктивную переменную иногда называют индикатором.

Рассмотрим простейшую модель с одним индикатором, принимающим два значения:

,

D =0, если сотрудник женщина,

D =1, если сотрудник мужчина,

y – размер заработной платы,

x – стаж работы.

Тогда ожидаемое значение заработной платы сотрудников при стаже х будет выражаться так:

что иллюстрируется рис. 6.1.

а+c

рис. 6.1

Если свободные члены окажутся статистически значимыми, то обнаружится дискриминация по поводу полового признака: c > 0 - в пользу мужчин, c < 0 - в пользу женщин. В рассмотренном примере пол сотрудников имеет два альтернативных значения: женщины или мужчины, и в модели это отражается одной фиктивной переменной.

Что будет, если вместо одной возьмём две фиктивные переменные?

Между фиктивными переменными D 1 и D 2 существует строгая функциональная (линейная) зависимость, а именно D 2 = 1 –D 1 или D 1 = 1 –D 2. Видно, что в этом случае имеет место совершенная мультиколлинеарность, следовательно с 1 и с 2 в модели: однозначно не определяются, и следовательно одну переменную нужно отбросить – это простейший способ борьбы с мультиколлинеарностью.

Существует общее правило: если качественная переменная имеет k альтернативных значений, то в модели следует использовать только (k -1) фиктивных переменных. Если этому правилу не следовать, то исследователь попадает в так называемую ловушку мультиколлинеарности (dummy trap).

Значение качественной переменной для которой D = 0 называется базовым или сравнительным.

Рассмотрим модель при наличии у качественной переменной более двух альтернатив:

, где

у – расходы,

х – доходы.

Значения переменных в зависимости от альтернатив показаны в табл. 6.1.

таблица 6.1

  D 1 D 2
Дошкольник    
Младший школьник  
Старший школьник  

Образуются следующие зависимости:

Первое уравнение – это средний расход на дошкольника,

второе уравнение – это средний расход на младшего школьника,

третье уравнение – это средний размер расходов на старшего школьника.

Здесь три альтернативы одного качественного признака (возрастная группа) моделируются 3–1=2 фиктивными переменными.

Возможен случай, когда в модель включается более первого признака.

Рассмотрим модель:

у – заработная плата, х – стаж, D 1 – пол сотрудника, D 2 – наличие высшего образования (в/о).

Фиктивные переменные удобно использовать в сезонных моделях.

Пример:

Номер квартала – это качественный признак, имеющий k = 4 альтернативы, следовательно, для его моделирования может потребоваться k – 1 = 4 –– 1 = 3 фиктивных переменных.

Значения переменных в зависимости от альтернатив показаны в табл. 6.2.

таблица 6.2

Квартал D 1 D 2 D 3
I II III IV      

I – 000

II – 100

III – 010

IV – 001

В этой модели присутствуют ситуации, в которых квартальное различие отражается лишь в различии свободных членов. Если различия затрагивают также изменения коэффициентов пропорциональности, то может быть составлена модель следующего вида:

Вообще говоря, вначале целесообразно рассмотреть эту модель (**) и, если коэффициенты f 1, f 2, f 3 окажутся статистически незначимыми, то можно перейти к упрощённой модели (*).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



Сейчас читают про: