Факторы (объясняющие переменные), применяемые в задаче регрессии до сих пор, принимали значения из некоторого непрерывного интервала. Иногда может понадобиться ввести в модель переменные, значения которых детерминированы и дискретны. Например, данные получены для трех разных районов, или на двух фабриках, или на разных машинах и т.п. Переменные такого типа обычно называют фиктивными или искусственными. Эти переменные позволяют отразить в модели эффекты сдвига во времени или в пространстве, воздействия качественных переменных. Пример фиктивной переменной - это переменная при свободном члене в уравнении регрессии (3.1), которая принята равной 1. Эту переменную необязательно вводить в модель, но ее использование обеспечивает некоторое удобство в обозначениях. Во многих других случаях введение фиктивных переменных диктуется необходимостью.
Пример. Пусть, требуется отразить в модели разное происхождение куриных окороков (исходные данные - таблица 4.5), часть из которых получены в Америке, а часть в Канаде, при построении регрессионной зависимости веса окороков У от возраста кур Х. для этого в модель включим фиктивную переменную Z: Z=O для Америки, Z=1 для Канады:
|
|
13,3 | 8,9 | 15,1 | 10,4 | 13,1 | 12,4 | 13,2 | 11,8 | 11,5 | 14,2 | 15,4 | |
Таблица 4.5 Данные для расчёта модели с фиктивными переменными
Построив регрессию по приходим к уравнению
Используя модель с фиктивной переменной получим
или для различных стран
для Канады и для Америки.
Дисперсионный анализ показывает значимость полученных зависимостей, причем уравнение (как с фиктивной переменной, так и без фиктивной переменной) объясняет до 80% вариации относительно среднего.
Вывод: введение фиктивной переменной не дает весомого улучшения модели в смысле дополнительно объяснённой вариации.
Для любой задачи существует не единственный способ выбора фиктивных переменных. Это обстоятельство оказывается выгодным, поскольку в некоторых случаях можно угодить в ловушку, когда существует линейная зависимость между введенными фиктивными переменными.
Чтобы избежать ловушки, необходимо выбрать одну из категорий в качестве эталонной и определять фиктивные переменные для остальных возможных категорий, причем выбор эталонной категории не влияет на сущность регрессии.
Может потребоваться включение в модель более одной совокупности фиктивных переменных. Это особенно часто встречается при работе с перекрестными выборками.
Фиктивные переменные могут быть введены не только в правую часть регрессионного соотношения, но и зависимая переменная может быть представлена в такой форме. Это возможно в тех случаях, когда в качестве зависимой переменной рассматриваются ответы на вопросы, пользуется ли человек собственной машиной, имеет ли счет в банке и т.п., причем во всех случаях зависимая переменная принимает дискретные значения.
|
|
Фиктивные переменные могут быть использованы для учета взаимодействия между различными группами факторов.
Рассмотрим пример с окороками. Для построения двух прямых рассмотрим модель:
или
Такой подход позволяет проверить различные варианты гипотез:
1. Гипотеза против альтернативы что это не так. Если гипотеза будет отвергнута, то мы придем к выводу, что модели не одинаковы, а если нет, то можно пользоваться одной моделью независимо от происхождения окороков.
2. Если гипотеза в предыдущем пункте будет отвергнута, то можно проверить гипотезу Если принимается, то мы заключаем, что имеющиеся два набора данных отличаются только уровнем, имея одинаковые углы наклона.
При необходимости могут быть выбраны и другие варианты проверок, если это разумно для задачи. Получим для указанной выше модели уравнение МНК:
причём
Два отдельных уравнения для
и для
Для проверки гипотезы составим таблицу дисперсионного анализа (табл. 4.6).
Источник вариации | Сумма квадратов | Степени свободы | Средний квадрат |
Х Z,XZ Остаток Всего | 24,447 6,797 6,881 | 10,414 3,399 0,983 | |
38,125 |
Таблица 4.4
Значение что меньше и, следовательно, гипотеза принимается, т.е. можно пользоваться одной моделью как для окороков из Америки, так и из Канады. Последнее подтверждается ранее полученными результатами.
Часто эконометрист сталкивается с ситуацией, когда к уже имеющейся выборке он хочет присоединить небольшую дополнительную порцию данных, но не знает, можно ли считать выборки регрессионно-однородным.
Если необходимо выяснить, можно ли использовать одну и ту же модель для двух разных выборок данных или следует оценивать отдельные регрессии для каждой выборки, то можно воспользоваться тестом Чоv.
Рассмотрим модели:
;
Требуется проверить гипотезу
которая содержательно означает, что для двух имеющихся выборок из и наблюдений можно использовать одну и ту же регрессионную модель, т.е. выборки можно объединить.
Процедура Чоу для статистической проверки гипотезы состоит в следующем:
1. Строим МНК оценки регрессии (4.14) и вычисляем сумму квадратов остатков, которую обозначим через .Строим МНК оценки регрессии (4.15) и вычисляем сумму квадратов остатков, которую обозначим через .
2. Строим МНК оценки регрессии по объединенной (общей) выборке, содержащей в себе все наблюдения (числом )обеих выборок и вычисляем сумму квадратов остатков, которую обозначим через .
3. Критическая статистика вычисляется по формуле:
и имеет распределение Фишера с и степенями свободы. Если , то нулевая гипотеза отвергается, и в этом случае мы не можем объединить две выборки в одну.