Вопрос 1. «Фиктивные переменные во множественной регрессии»

До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровней. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т.к. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные в экономике принято называть фиктивными переменными. В отечественной литературе можно встретить термин «структурированные переменные».

Рассмотрим применение фиктивных переменных для функции спроса. Предположим, что по группе лиц мужского и женского пола изучается линейная зависимость употребления кофе от цены. В общем виде для сосокупности обследуемых уравнение регрессии имеет вид:

Y=a+b*x+ε,

где y – цена потребляемого кофе,

х – цена

Аналогичные уравнения могут быть найдены отдельно для лиц мужского пола: и женского пола:

Различия в употреблении кофе проявятся в различии средних и . Вместе с тем сила влияния х на у может быть одинаковой, т.к. . В этом случае возможно построение общего уравнения регрессии с включение в него фактора «пол» в виде фиктивной переменной. Объединяя уравнения у₁ и у₂ в вводя фиктивные переменные, можно прийти к следующему выражению:

Где z₁ и z₂ – фиктивные переменные, принимающие значения:

В общем уравнении регрессии зависимая переменная y рассматривается как функция не только цены х, но и пола (z₁,z₂) Переменная z рассматривается как дихотомическая переменная, принимающая всего два значения: 1 и 0. При этом когда z₁=1, то z₂=0 и, наоборот, при z₁=0 переменная z₂=1.

Для лиц мужского пола, когда z₁=1 и z₂=0, объединенное уравнение регрессии составит: а для лиц женского пола, когда z₁=0 и z₂=1, . Иными словами, различия в потреблении для лиц мужского и женского пола вызваны различиями свободных членов уравнения регрессии: . Параметр b является общим для всей совокупности лиц, как для мужчин, так и женщин.

Следует иметь в виду, что при введении фиктивных переменных z₁ и z₂в модель применение МНК для оценивания параметров а₁ и а₂, приведет к вырожденной матрице исходных данных, а следовательно, и к невозможности получения их оценок. Объясняется это тем, что при использовании МНК в данном уравнении появляется свободный член, т.е. уравнение примет вид

Предполагая при параметре А независимую переменную, равную 1, имеем матрицу исходных данных:

В рассматриваемой матрице существует линейная зависимость между первым, вторым и третьим столбцами: первый равен сумме второго и третьего столбцов. Поэтому матрица исходных факторов вырожденная. Выходом из создавшегося затруднения может являться переход к уравнениям:

или

т.е. каждое уравнение включает только одну фиктивную переменную и

Предположим, что определно уравнение

где – принимает значение 1 для мужчин и 0 для женщин.

Теоретические значения размера потребления кофе для мужчин будут получены из уравнения

Для женщин соответствующие значения получим из уравнения

Сопоставляя эти результаты, видим, что различия в уровне потребления мужчин и женщин состоят в различии свободных членов данных уравнений: А-для женщин и - для мужчин.

Пример. Проанализируем с использованием фиктивных переменных зависимость урожайности пшеницы у от вида вспашки z и количества внесенного органического удобрения х:

По 25 наблюдениям уравнение парной регрессии (без учета вида вспашки) составило:

Для его расчета использовалась следующая система нормальных уравнений:

Уравнение регрессии статистически значимо – F, t_b, r_yx превышают табличные значения: при 5%-ном уровне существенности и числе степеней свободы 23: F=4,28; t_b=2,069; r_yx = 0,398; при 1%-ом уровне значимости: F=7,88; t_b = 2,807; r_yx =0,507).

По виду вспашки поля характеризовались двумя категориями: зяблевая и весенняя. Вид вспашки не влияет на количество внесенных удобрений, но обусловливает различия в урожайности. Чтобы убедиться в этом, введем в уравнение регрессии фиктивную переменную z для отражения эффекта вида вспашки, а именно z =1 для зяблевой вспашки и z =0 для весенней вспашки. Уравнение регрессии примет вид:

Применяя МНК для оценки параметров данного уравнения, получим следующую систему нормальных уравнений:

Ввиду того, что z принимает лишь два значения (1 и 0), (количество внесенных удобрений на полях с зяблевой вспашкой), , (сумма у по полям зяблевой вспашки)

В рассматриваемом примере вся совокупность из 25 единиц подразделена на две подгруппы: с зяблевой вспашкой – 13 полей и с весенней – 12 полей, т.е. n₁= 13 и n₂=12. Соответственно разделению на эти две группы имеем:

Тогда систему нормальных уравнений примет вид:

Решая ее, получим уравнение регрессии:

Уравнение регрессии статистически значимо: F=15,6; R=0,766; t_a=11,8; t_b=3,9; t_c=4,1

Как видим, добавление в регрессию фиктивной переменной существенно улучшило результат модели: для объясняемой вариации выросла с 27,5% до 58,7% При этом сила влияния количества внесенных органических удобрений на урожайность осталась практически неизменной: коэффициенты регрессии, по существу, одинаковы (0,326 в парном уравнении и 0,331 во множественном). Корреляция между видом вспашки и количество внесенного удобрения на 1 га практически отсутствует:

Применение зяблевой вспашки способствует росту урожайности в среднем на 2,9 ц. с 1 га при одном и том же количестве внесенного удобрения на 1 га, что в целом соответствует и различию средней урожайности по видам вспашки (15,3 ц с 1 га для зяблевой вспашки и 12,5 ц. с 1 га для весенней вспашки). Частный F-критерий для фактора z составил 16,58, что выше табличного значения при числе степеней свободы 1 и 22 (4,30 при а = 0,05 и 7,94 при а = 0,01). Это подтверждает целесообразность включения фиктивной переменной в уравнение регрессии.

Уравнения парной регрессии по отдельным видам вспашки показывают, практически единую меру влияния количества внесенного удобрения на урожайность:

Поэтому вполне реально предположить единую меру влияния данного фактора независимо от вида вспашки. То и имеет место в уравнении регрессии с фиктивной переменной. Включив фиктивную переменную, удалось измерить ее влияние на изменение урожайности: частный коэффициент корреляции оценивающий в чистом виде влияние данного фактора, составил 0,6555, что несколько выше, чем аналогичный показатель для фактора х, т.е =0.6385.

Частные уравнения регрессии по отдельным видам вспашки составили:

Как видим, функция урожайности для первой группы (при z=1) параллельна функции для второй группы, но сдвинута вверх.

В рассмотренном примере качественный фактор имея только два состояния, которым и соответствовали обозначения 1 и 0. Если же число градаций качественного признака-фактора превышает два. То в модель вводится несколько фиктивных переменных, число которых должно быть меньше числа качественных градаций. Только при соблюдении этого положения матрица исходных фиктивных переменных не будет линейно зависима и возможна оценка параметров модели.

Пример. Проанализируем зависимость цены двухкомнатной квартиры от ее полезной площади. При этом в модель могут быть введены фиктивные переменные, отражающие тип дома: «Хрущевка», панельный, кирпичный.

При использовании трех категорий домов вводятся две фиктивные переменные: z₁ и z₂. Пусть переменная принимает значение 1 для панельного дома и 0 для всех остальных типов домов; переменная принимает значение 1 для кирпичных домов и 0 для остальных, тогда переменные принимают значения 0 для домов типа «хрущевки».

Предположим, что уравнение регрессии с фиктивными переменными составило:

Частные уравнения регрессии для отдельных типов домов, свидетельствуя о наиболее высоких ценах квартир в панельных домах, будут иметь следующий вид:

- «хрущевки» -

- Панельные –

- Кирпичные –

Параметры при фиктивных переменных представляют собой разность между средним уровнем результативного признака для соответствующей группы и базовой группы. В рассматриваемом примере за базу сравнения цены взяты дома «хрущевки», для которых . Параметр при означает, что при одной и той же полезной площади квартиры цена ее в панельных домах в среднем на 2200 долларов США выше, чем в «хрущевках». Соответственно параметр при показывает, что в кирпичных домах цена выше в среднем на 1600 долл. При неизменной величине полезной площади по сравнению с указанным типов домов.

В отдельных случаях может оказаться необходимым введение двух и более групп фиктивных переменных, т.е. двух и более качественных факторов, каждый из которых может иметь несколько градаций. Например, при изучении потребления некоторого товара наряду с факторами, имеющими количественное выражение (цена, доход на одного члена семьи, цена на взаимозаменяемые товары и др.), учитывается и качественные факторы. С их помощью оцениваются различия в потреблении отдельных социальных групп населения, дифференциация в потреблении по полу, национальному составу и др. При построении такой модели из каждой группы фиктивных переменных следует исключить по одной переменной. Так, если модель будет включать три социальные группы, три возрастные категории и ряд экономических переменных, то она примет вид:

Где у – потребление;

- экономические (количественные) переменные.

Фиктивные переменные широко используются для оценки сезонных различий в потреблении.

Фиктивные переменные могут вводиться не только в линейные, но и в нелинейные модели, приводимые путем преобразований к линейному виду. Так, модель с фиктивными переменными может иметь вид:

где z – фиктивная переменная.

Целесообразность такого вида модели диктуется характером связи между экономическими переменными:

Фиктивная переменная вводится в эту модель как очередной сомножитель:

Логарифмируя данное выражение, получим модель вида:

Которая равносильна приведенной ранее

где параметры и случайная составляющая представлены в логарифмах.

Включение в модель фиктивных переменных может иметь цель отразить в модели неоднородность совокупности. Однако нельзя рассматривать фиктивные переменные как панацею при применении методов регрессии к неоднородным данным.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

3 4 5 6 7 8 9

Соотношение законности и правопорядка

Раннее средневековье. Апологетика. Патристика. Схоластика

Технология приготовления заправочных супов

Язык как общественное явление

Социальная поддержка и социальное обслуживание население

Желе, муссы, самбуки. Технология приготовления. Правила подачи. Ассортимент

Самый сильный аргумент, почему эволюция человека не могла быть