Данные для расчета модели с фиктивной переменной

Таблица 4.5

X
Y	13,3	8,9	15,1	10,4	13,1	12,4	13,2	11,8	11,5	14,2	15,4
Z

Если бы мы построили регрессию Y на X, то получили бы такое уравнение

Y =0,442+0,465 X.

Воспользовавшись моделью с фиктивной переменной получим

Y =0,643+0,466 X -0,422 Z

или для различных стран:

Y _K =0,221+0,466 X для Канады и Y _A=0,643+0,466 X для Америки.

Экспериментальные данные и три прямые, подобранные методом наименьших квадратов, приведены на рис. 4.3. Все три линии практически параллельны.

Дисперсионный анализ показывает значимость полученных зависимостей, причем уравнение (как с фиктивной переменной, так и без фиктивной переменной) объясняет до 80% вариации относительно среднего.

Вывод, который можно сделать в этом случае - введение фиктивной переменной не дает весомого улучшения модели в смысле дополнительно объясненной вариации.Ñ

Ясно, что для какой-либо задачи существует не единственный способ выбора фиктивных переменных, а в большинстве случаев путей их представления много. Это обстоятельство оказывается выгодным, поскольку в некоторых случаях можно угодить в ловушку, когда существует линейная зависимость между введенными фиктивными переменными.

Чтобы избежать ловушки, необходимо выбрать одну из категорий в качестве эталонной и определять фиктивные переменные для остальных возможных категорий, причем выбор эталонной категории не влияет на сущность регрессии.

Рис. 4.3

Может потребоваться включение в модель более одной совокупности фиктивных переменных. Это особенно часто встречается при работе с перекрестными выборками. Поясним такую процедуру – множественных совокупностей фиктивных переменных – на примере8.

Пример. Предположим, что исследуется зависимость между весом новорожденного и семейным положением матери, а также рожала ли она раньше.

Введем фиктивную переменную M, которая принимает значения 1, если мать одинока, и 0 – в остальных случаях.

Введем также фиктивную переменную числа родов в прошлом D, равную 1 для матерей, которые рожали в прошлом, и 0 для матерей, которые ранее не рожали.

При этом двойном наборе фиктивных переменных имеется четыре возможных случая с соответствующими комбинациями значений фиктивных переменных:

1. Замужняя мать, первые роды M =0, D =0.

2. Одинокая мать, первые роды M =1, D =0.

3. Замужняя мать, не первые роды M =0, D =1.

4. Одинокая мать, не первые роды M =1, D =1.

Первый случай по смыслу является основной совместной эталонной категорией. Коэффициент при M будет представлять оценку разности веса новорожденных, если мать одинока (ожидаем отрицательный знак коэффициента). Коэффициент при D будет представлять оценку дополнительного веса при рождении, если ребенок не является первенцем. Ребенок для четвертой категории матерей будет подвержен обоим воздействиям. Ñ

Фиктивные переменные могут быть введены не только в правую часть регрессионного соотношения, но и зависимая переменная может быть представлена в такой форме. Это возможно в тех случаях, когда в качестве зависимой переменной мы рассматриваем ответы на вопросы, пользуется ли человек собственной машиной, имеет ли счет в банке и т.п., причем во всех случаях зависимая переменная принимает дискретные значения.

Фиктивные переменные могут быть использованы для учета взаимодействия между различными группами факторов.

Пример. Проиллюстрируем сказанное на примере с окорочками. Для построения двух прямых рассмотрим модель:

Y = b ₀+ b ₁ X + Z (g ₁+ g ₂ X)+ u или Y = b ₀+ b ₁ X + g ₁ Z + g ₂ XZ + u.

Такой подход позволяет проверить различные варианты гипотез:

1. Гипотеза H₀: g ₁= g ₂=0 против альтернативы H₁: что это не так. Если гипотеза H₀ будет отвергнута, то мы придем к выводу, что модели не одинаковы, а если нет, то можно пользоваться одной моделью независимо от происхождения окороков.

2. Если гипотеза H₀ в предыдущем пункте будет отвергнута, то можно проверить гипотезу H₀: g ₂=0. Если H₀ принимается, то мы заключаем, что имеющиеся два набора данных отличаются только уровнем, имея одинаковые углы наклона.

При необходимости могут быть выбраны и другие варианты проверок, если это разумно для задачи. Получим для указанной выше модели уравнение МНК:

Y =2,974+0,377 X -3,649 Z +0,123(XZ),

причем R ²=0,82.

Два отдельных уравнения для Z =1: Y =-0,675+0,5 X;

и для Z =0: Y =2,974+0,377 X.

Как видно, уравнения несколько отличаются от тех линий, что приведены на рис. 4.3.

Для проверки гипотезы H₀: g ₁= g ₂=0 составим таблицу дисперсионного анализа (табл. 4.6). Значение F =3,399/0,983=3,458, что меньше F _0,05(2; 7)=4,74, а, следовательно, гипотеза H₀ принимается, то есть можно пользоваться одной моделью как для окороков из Америки, так и из Канады. Последнее подтверждается ранее полученными результатами.

Как показывает пример, использование взаимодействия с фиктивными переменными упрощает построение подходящих критериев и получение правильных статистик для проверки гипотез. Ñ

1 2 3 4 5 6 7

Показатели движения численности работников. Пример 1,2

Технология изготовления порошков

Формы (источники) права: понятие и виды

Юридические факты: понятие, признаки, функции, виды

Бокс, полубокс, боксированная палата в инфекционных отделениях. Их устройство и нормативы площади и кубатуры на 1 взрослого и ребенка

Типовые задачи с решениями. № 1. Зависимость выпуска продукции от количества используемого труда отображается функцией:

Самый сильный аргумент, почему эволюция человека не могла быть

Малообразованному человеку очень полезно читать книги цитат. «Знакомые цитаты» Бартлетта – восхитительная книга, и я внимательно изучал ее. Запечатленные в памяти цитаты вызывают плодотворные мысли. Они также вызывают желание подробнее ознакомиться с творчеством их авторов и отыскать в нем многое другое. © Черчилль ==> читать все изречения...

8342

7989