ANCOVA-модели при наличии у качественных переменных более двух альтернатив.
Задача.
Проанализируем зависимость урожайности пшеницы у от вида вспашки z и количества внесенного удобрения х. В результате оценки регрессии между у и х, было получено следующее выражение:
.
Это означает, что урожай без использования удобрений составит 11,463 ц с 1 га, а увеличение количества удобрений на 1 кг в среднем увеличит урожайность на 0,326 ц.
После введения в модель фиктивной переменной
была получена модель.
Применение зяблевой вспашки способствует росту урожайности в среднем на 2,9 ц с 1 га при одном и том же количестве внесенных удобрений на 1 га
Частные уравнения регрессии по отдельным видам вспашки составили:
при зяблевой вспашки,
при весенней вспашке.
Параметр сдвига равен 12,816-9,908=2,908. Таким образом, функция урожайности для первой группы параллельна функции для второй группы, но сдвинута вверх.
Если качественная переменная имеет k альтернативных значений, то при моделировании используются (k-1) фиктивных переменных.
|
|
При назначении фиктивных переменных исследуемая совокупность по числу значений качественного признака разбивается на группы. Одну из групп выбирают как эталонную (группа 0) и определяют фиктивные переменные для остальных.
Например, если качественный признак имеет три значения, то две фиктивные переменные определяются следующим образом:
группа 0: z1 = z2 =0,
группа 1: z1 =1, z2 =0,
группа 2: z1 =0, z2 =1.
Например, проанализируем зависимость цены двухкомнатной квартиры от ее полезной площади. При этом в модель могут быть введены фиктивные переменные, отражающие тип дома: «хрущевка», панельный, кирпичный.
Модель может быть представлена в виде:
где у – цена квартиры, х – полезная площадь.
Тогда переменные и принимают значения 0 для домов типа «хрущевки».
Образуются следующие регрессионные зависимости.
Средняя цена квартиры в «хрущевке»:
Средняя цена квартиры в кирпичном доме:
Средняя цена квартиры в панельном доме:
Базовым значением качественной переменной является «хрущевка».
Аппроксимация данных позволила получить следующее уравнение регрессии:
.
Параметр при, равный 2200, означает, что при одной и той же полезной площади квартиры цена ее в панельных домах в среднем на 2200 долл. США выше, чем в «хрущевках». Соответственно параметр при показывает, что в кирпичных домах цена выше в среднем на 1600 долл. при неизменной величине полезной площади по сравнению с указанным типом домов.
Техника фиктивных переменных может быть распространена на произвольное число качественных факторов. Для простоты рассмотрим ситуацию с двумя качественными переменными.
|
|
Пусть у – заработная плата сотрудников фирмы, х – стаж работы, - наличие высшего образования, - пол сотрудника:
Таким образом, получим следующую модель:
Из этой модели выводятся следующие регрессионные зависимости.
Средняя заработная плата женщины без высшего образования:
Средняя заработная плата женщины c высшим образованием:
Средняя заработная плата мужчины без высшего образования:
Средняя заработная плата мужчины c высшим образованием:
Очевидно, что все регрессии отличаются лишь свободными членами. Дальнейшее определение статистической значимости коэффициентов позволяет убедиться, влияют ли образование и пол на его заработную плату.
Предложенные схемы могут быть распространены на ситуации с произвольным числом количественных и качественных факторов.