Вопрос 1. «Фиктивные переменные во множественной регрессии»

До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровней. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т.к. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные в экономике принято называть фиктивными переменными. В отечественной литературе можно встретить термин «структурированные переменные».

Рассмотрим применение фиктивных переменных для функции спроса. Предположим, что по группе лиц мужского и женского пола изучается линейная зависимость употребления кофе от цены. В общем виде для сосокупности обследуемых уравнение регрессии имеет вид:

Y=a+b*x+ε,

где y – цена потребляемого кофе,

  х – цена

            Аналогичные уравнения могут быть найдены отдельно для лиц мужского пола:  и женского пола:

Различия в употреблении кофе проявятся в различии средних и   . Вместе с тем сила влияния х на у может быть одинаковой, т.к. . В этом случае возможно построение общего уравнения регрессии с включение в него фактора «пол» в виде фиктивной переменной. Объединяя уравнения у1 и у2 в вводя фиктивные переменные, можно прийти к следующему выражению:

Где z1 и z2 – фиктивные переменные, принимающие значения:

 

 

В общем уравнении регрессии зависимая переменная y рассматривается как функция не только цены х, но и пола (z1,z2) Переменная z рассматривается как дихотомическая переменная, принимающая всего два значения: 1 и 0. При этом когда z1=1, то z2=0 и, наоборот, при z1=0 переменная z2=1.

Для лиц мужского пола, когда z1=1 и z2=0, объединенное уравнение регрессии составит:  а для лиц женского пола, когда z1=0 и z2=1, . Иными словами, различия в потреблении для лиц мужского и женского пола вызваны различиями свободных членов уравнения регрессии: . Параметр b является общим для всей совокупности лиц, как для мужчин, так и женщин.

Следует иметь в виду, что при введении фиктивных переменных z1 и z2 в модель  применение МНК для оценивания параметров а1 и а2 , приведет к вырожденной матрице исходных данных, а следовательно, и к невозможности получения их оценок. Объясняется это тем, что при использовании МНК в данном уравнении появляется свободный член, т.е. уравнение примет вид

           

Предполагая при параметре А независимую переменную, равную 1, имеем матрицу исходных данных:

 

В рассматриваемой матрице существует линейная зависимость между первым, вторым и третьим столбцами: первый равен сумме второго и третьего столбцов. Поэтому матрица исходных факторов вырожденная. Выходом из создавшегося затруднения может являться переход к уравнениям:

или

 

 

т.е. каждое уравнение включает только одну фиктивную переменную  и

       Предположим, что определно уравнение

 

 

где  – принимает значение 1 для мужчин и 0 для женщин.

Теоретические значения размера потребления кофе для мужчин будут получены из уравнения

 

 

Для женщин соответствующие значения получим из уравнения

 

 

Сопоставляя эти результаты, видим, что различия в уровне потребления мужчин и женщин состоят в различии свободных членов данных уравнений: А-для женщин и  - для мужчин.

Пример. Проанализируем с использованием фиктивных переменных зависимость урожайности пшеницы у от вида вспашки z и количества внесенного органического удобрения х:

По 25 наблюдениям уравнение парной регрессии (без учета вида вспашки) составило:

 

 

Для его расчета использовалась следующая система нормальных уравнений:

 

 

Уравнение регрессии статистически значимо – F, tb, ryx превышают табличные значения: при 5%-ном уровне существенности и числе степеней свободы 23: F=4,28; tb=2,069; ryx = 0,398; при 1%-ом уровне значимости: F=7,88; tb = 2,807; ryx =0,507).

По виду вспашки поля характеризовались двумя категориями: зяблевая и весенняя. Вид вспашки не влияет на количество внесенных удобрений, но обусловливает различия в урожайности. Чтобы убедиться в этом, введем в уравнение регрессии фиктивную переменную z для отражения эффекта вида вспашки, а именно z =1 для зяблевой вспашки и z =0 для весенней вспашки. Уравнение регрессии примет вид:

 

Применяя МНК для оценки параметров данного уравнения, получим следующую систему нормальных уравнений:

 

Ввиду того, что z принимает лишь два значения (1 и 0), (количество внесенных удобрений на полях с зяблевой вспашкой), ,  (сумма у по полям зяблевой вспашки)

В рассматриваемом примере вся совокупность из 25 единиц подразделена на две подгруппы: с зяблевой вспашкой – 13 полей и с весенней – 12 полей, т.е. n1 = 13 и n2 =12. Соответственно разделению на эти две группы имеем:

 

 

Тогда систему нормальных уравнений примет вид:

 

 

Решая ее, получим уравнение регрессии:

 

Уравнение регрессии статистически значимо: F=15,6; R=0,766; ta=11,8; tb=3,9; tc=4,1

Как видим, добавление в регрессию фиктивной переменной существенно улучшило результат модели: для объясняемой вариации выросла с 27,5%  до 58,7%  При этом сила влияния количества внесенных органических удобрений на урожайность осталась практически неизменной: коэффициенты регрессии, по существу, одинаковы (0,326 в парном уравнении и 0,331 во множественном). Корреляция между видом вспашки и количество внесенного удобрения на 1 га практически отсутствует:

Применение зяблевой вспашки способствует росту урожайности в среднем на 2,9 ц. с 1 га при одном и том же количестве внесенного удобрения на 1 га, что в целом соответствует и различию средней урожайности по видам вспашки (15,3 ц с 1 га для зяблевой вспашки и 12,5 ц. с 1 га для весенней вспашки). Частный F-критерий для фактора z составил 16,58, что выше табличного значения при числе степеней свободы 1 и 22 (4,30 при а = 0,05 и 7,94 при а = 0,01). Это подтверждает целесообразность включения фиктивной переменной в уравнение регрессии.

Уравнения парной регрессии по отдельным видам вспашки показывают, практически единую меру влияния количества внесенного удобрения на урожайность:

 

 

Поэтому вполне реально предположить единую меру влияния данного фактора независимо от вида вспашки. То и имеет место в уравнении регрессии с фиктивной переменной. Включив фиктивную переменную, удалось измерить ее влияние на изменение урожайности: частный коэффициент корреляции  оценивающий в чистом виде влияние данного фактора, составил 0,6555, что несколько выше, чем аналогичный показатель для фактора х, т.е =0.6385.

Частные уравнения регрессии по отдельным видам вспашки составили:

 

 

Как видим, функция урожайности для первой группы (при z=1) параллельна функции для второй группы, но сдвинута вверх.

В рассмотренном примере качественный фактор имея только два состояния, которым и соответствовали обозначения 1 и 0. Если же число градаций качественного признака-фактора превышает два. То в модель вводится несколько фиктивных переменных, число которых должно быть меньше числа качественных градаций. Только при соблюдении этого положения матрица исходных фиктивных переменных не будет линейно зависима и возможна оценка параметров модели.

Пример. Проанализируем зависимость цены двухкомнатной квартиры от ее полезной площади. При этом в модель могут быть введены фиктивные переменные, отражающие тип дома: «Хрущевка», панельный, кирпичный.

При использовании трех категорий домов вводятся две фиктивные переменные: z1 и z2  . Пусть переменная  принимает значение 1 для панельного дома и 0 для всех остальных типов домов; переменная  принимает значение 1 для кирпичных домов и 0 для остальных, тогда переменные  принимают значения 0 для домов типа «хрущевки».

Предположим, что уравнение регрессии с фиктивными переменными составило:

 

Частные уравнения регрессии для отдельных типов домов, свидетельствуя о наиболее высоких ценах квартир в панельных домах, будут иметь следующий вид:

- «хрущевки» -

- Панельные –

- Кирпичные –

Параметры при фиктивных переменных  представляют собой разность между средним уровнем результативного признака для соответствующей группы и базовой группы. В рассматриваемом примере за базу сравнения цены взяты дома «хрущевки», для которых . Параметр при  означает, что при одной и той же полезной площади квартиры цена ее в панельных домах в среднем на 2200 долларов США выше, чем в «хрущевках». Соответственно параметр при  показывает, что в кирпичных домах цена выше в среднем на 1600 долл. При неизменной величине полезной площади по сравнению с указанным типов домов.

В отдельных случаях может оказаться необходимым введение двух и более групп фиктивных переменных, т.е. двух и более качественных факторов, каждый из которых может иметь несколько градаций. Например, при изучении потребления некоторого товара наряду с факторами, имеющими количественное выражение (цена, доход на одного члена семьи, цена на взаимозаменяемые товары и др.), учитывается и качественные факторы. С их помощью оцениваются различия в потреблении отдельных социальных групп населения, дифференциация в потреблении по полу, национальному составу и др. При построении такой модели из каждой группы фиктивных переменных следует исключить по одной переменной. Так, если модель будет включать три социальные группы, три возрастные категории и ряд экономических переменных, то она примет вид:

Где у – потребление;

 

 

 

- экономические (количественные) переменные.

 

Фиктивные переменные широко используются для оценки сезонных различий в потреблении.

Фиктивные переменные могут вводиться не только в линейные, но и в нелинейные модели, приводимые путем преобразований к линейному виду. Так, модель с фиктивными переменными может иметь вид:

 

       где z – фиктивная переменная.

 

Целесообразность такого вида модели диктуется характером связи между экономическими переменными:

 

Фиктивная переменная вводится в эту модель как очередной сомножитель:

 

 

Логарифмируя данное выражение, получим модель вида:

 

Которая равносильна приведенной ранее

где параметры и случайная составляющая представлены в логарифмах.

 

Включение в модель фиктивных переменных может иметь цель отразить в модели неоднородность совокупности. Однако нельзя рассматривать фиктивные переменные как панацею при применении методов регрессии к неоднородным данным.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: