Модели ANCOVA (модели ковариационного анализа).
Модели, в которых объясняющие переменные носят как качественный, так и количественный характер называются ANCOVA – модели.
Влияние качественного фактора обычно выражают в виде так называемой фиктивной переменной (или переменных, если таких факторов несколько). Такими факторами могут быть: пол, возрастная группа, сезон, национальность. Фиктивная переменная отражает два противоположных состояния качественного фактора: либо фактор действует, либо не действует D =0 или D =1. Фиктивную переменную иногда называют индикатором.
Рассмотрим простейшую модель с одним индикатором, принимающим два значения:
,
D =0, если сотрудник женщина,
D =1, если сотрудник мужчина,
y – размер заработной платы,
x – стаж работы.
Тогда ожидаемое значение заработной платы сотрудников при стаже х будет выражаться так:
что иллюстрируется рис. 6.1.
|
рис. 6.1
Если свободные члены окажутся статистически значимыми, то обнаружится дискриминация по поводу полового признака: c > 0 - в пользу мужчин, c < 0 - в пользу женщин. В рассмотренном примере пол сотрудников имеет два альтернативных значения: женщины или мужчины, и в модели это отражается одной фиктивной переменной.
Что будет, если вместо одной возьмём две фиктивные переменные?
Между фиктивными переменными D 1 и D 2 существует строгая функциональная (линейная) зависимость, а именно D 2 = 1 –D 1 или D 1 = 1 –D 2. Видно, что в этом случае имеет место совершенная мультиколлинеарность, следовательно с 1 и с 2 в модели: однозначно не определяются, и следовательно одну переменную нужно отбросить – это простейший способ борьбы с мультиколлинеарностью.
Существует общее правило: если качественная переменная имеет k альтернативных значений, то в модели следует использовать только (k -1) фиктивных переменных. Если этому правилу не следовать, то исследователь попадает в так называемую ловушку мультиколлинеарности (dummy trap).
Значение качественной переменной для которой D = 0 называется базовым или сравнительным.
Рассмотрим модель при наличии у качественной переменной более двух альтернатив:
, где
у – расходы,
х – доходы.
Значения переменных в зависимости от альтернатив показаны в табл. 6.1.
таблица 6.1
D 1 | D 2 | |
Дошкольник | ||
Младший школьник | ||
Старший школьник |
Образуются следующие зависимости:
Первое уравнение – это средний расход на дошкольника,
второе уравнение – это средний расход на младшего школьника,
третье уравнение – это средний размер расходов на старшего школьника.
Здесь три альтернативы одного качественного признака (возрастная группа) моделируются 3–1=2 фиктивными переменными.
Возможен случай, когда в модель включается более первого признака.
Рассмотрим модель:
у – заработная плата, х – стаж, D 1 – пол сотрудника, D 2 – наличие высшего образования (в/о).
Фиктивные переменные удобно использовать в сезонных моделях.
Пример:
Номер квартала – это качественный признак, имеющий k = 4 альтернативы, следовательно, для его моделирования может потребоваться k – 1 = 4 –– 1 = 3 фиктивных переменных.
Значения переменных в зависимости от альтернатив показаны в табл. 6.2.
таблица 6.2
Квартал | D 1 | D 2 | D 3 |
I II III IV |
I – 000
II – 100
III – 010
IV – 001
В этой модели присутствуют ситуации, в которых квартальное различие отражается лишь в различии свободных членов. Если различия затрагивают также изменения коэффициентов пропорциональности, то может быть составлена модель следующего вида:
Вообще говоря, вначале целесообразно рассмотреть эту модель (**) и, если коэффициенты f 1, f 2, f 3 окажутся статистически незначимыми, то можно перейти к упрощённой модели (*).