Тема 5. Множественная регрессионная модель

Множественная (многофакторная) регрессия – это регрессия между результирующей переменной Y и несколькими объясняющими переменными Х1, Х2, …, Хn. В общем виде уравнение множественной регрессии выглядит следующим образом:

Y= (), =x1,…xn.

Для построения многофакторной регрессионной модели необходимо знать минимальный объем выборки, который зависит от числа факторов, включаемых в модель с учетом свободного члена. Для получения статистически значимой модели на один фактор требуется объем наблюдений, равный 5-8 наблюдениям.

Определить минимальный объем выборки для получения статистически значимой модели можно по формуле:

Nmin=5 (m+n),

где m – число факторов, включаемых в модель,

n – число свободных членов в уравнении.

На практике наиболее широко используется линейная множественная регрессия = а + b1х1 + b2х2 + b3х3 + b4х4 +…+ bnxn. Параметры при «х» называются коэффициентами «чистой» регрессии. Параметры b1, b2,…, bn показывают, на какую величину в среднем изменится результативный признак у, если переменную х увеличить на единицу измерения при фиксированном (постоянном) значении других факторов, входящих в уравнение регрессии.

В большинстве случаев рассматриваются регрессионные модели, в которых в качестве объясняющих переменных выступают количественные переменные (производительность труда, доход и т.д.). Однако на практике достаточно часто возникает необходимость исследовать влияние качественных признаков, имеющих два или несколько уровней (градаций). К числу таких признаков можно отнести пол (мужской, женский), образование (начальное, общее, среднее и т.д.), фактор сезонности (зима, весна, лето, осень) и т.п. В связи с этим в модель вводят так называемые фиктивные переменные.

 

Фиктивные переменные – это искусственно созданные переменные, для перевода качественных переменных в количественные.

Обычно фиктивным переменным присваивают значения 0 и 1, но это не обязательно. Например:

 

0, если кирпичный, 1, если панельный.


Тип строения =

 

1, если кирпичный, 2, если панельный.


Тип строения =

 

Коэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение результирующей переменной при переходе от одной категории к другой при неизменных значениях остальных параметров.

Если в модель включаются два или более тесно взаимосвязанных фактора, то наряду с уравнением регрессии появляется и другая линейная зависимость. Подобное явление, называется мультиколлинеарностью.

 

Мультиколлинеарность – попарная корреляционная зависимость между факторами. Мультиколлинеарная зависимость присутствует, если коэффициент парной корреляции 0,7.

Для устранения мультиколлинеарности используют метод исключения переменных. Он заключается в том, что высоко коррелированные объясняющие переменные устраняются из регрессии, и она заново оценивается. Если

 


то одну из переменных можно исключить, но какую именно, решают исходя из управляемости факторов.

Если возникает такая ситуация, когда оба фактора одновременно управляемы или нет, то решить вопрос об исключении того или иного фактора можно с помощью процедуры отбора главных факторов.

Процедура отбора главных факторов включает обязательно следующие этапы:

1. Производится анализ значения коэффициентов парной корреляции rij между факторами xi и xj.

2. Анализ тесноты взаимосвязи объясняющих факторов с результативной переменной.

 

Образец решения задачи контрольной работы:

В табл. 4.1 приведены данные, формирующие цену на строящиеся квартиры в двух различных районах.

Таблица 4.1

 

Наименование района, а/б Общая площадь Жилая площадь Площадь кухни Срок сдачи, ч/з_ мес. Стоимость квартиры, тыс. $  
 
 
Х1 Х2 Х3 Х4 Х5 Y  
  39,8       20,5  
  53,2 19,4     23,6  
          14,2  
 
             
  231,2       139,2  

По имеющимся данным, представленным в таблице 4.1., получена матрица парных коэффициентов корреляции (табл. 4.2).

Таблица 4.2

 

  X1 X2 X3 X4 X5 Y
X1            
X2 0,368          
X3 0,051 0,917        
X4 0,320 0,832 0,811      
X5 -0,444 -0,156 -0,421 -0,062    
Y -0,328 0,857 0,845 0,838 -0,134  

Задание:

1. Запишите уравнение многофакторной регрессии и определите для нее минимальный объем выборки.Дайте экономическую интерпретацию полученной модели. Если известно, что а= b1= b2= b3= , b4= b5= .

2. Укажите, какие фиктивные переменные использованы в модели.

3. Проверьте факторы на мультиколлинеарность и устраните её.

4. Запишите новое уравнение многофакторной регрессии, после устранения мультиколлинеарности.

 

Решение.

 

Пусть = 302.

1. уравнение многофакторной регрессии будет выглядеть следующим образом: = -26,26 – 27,75х1 + 0,79х2 + 0,1х3 + 0,5х4 – 0,4х5.

Экономическая интерпретация полученной модели:

Квартиры в районе А стоят на 27,75% дешевле, чем в районе В. При увеличении общей площади на 1м2 стоимость квартиры возрастает на 0,79 тыс. $. При увеличении жилой площади на 1м2 стоимость квартиры увеличивается на 0,1тыс. $. При увеличении площади кухни на 1м2 стоимость квартиры увеличивается на 0,5тыс. $. При увеличении срока сдачи дома на 1 мес. стоимость квартиры уменьшается на 0,4тыс. $.

Минимальный объем выборки определяем по формуле:

Nmin=5*(m+n).

В нашем случаем m = 5 (т.к. в модель включены 5 факторов), n = 1 (т.к. в модели 1 свободный член – «а»).

Следовательно, Nmin=5*(5+1) = 30, т.е. для получения статистически значимой модели необходимо отобрать 30 квартир и собрать по ним необходимые данные.

2. В модели использована 1 фиктивная переменная – наименование района, т.к. в построении модели участвуют 2 района – «а» и «б», которым присвоены количественные значения «1» и «2» соответственно.

3.
Проверим факторы на мультиколлинеарность. Мультиколлинеарная зависимость присутствует, если

Это условие выполняется для следующих пар факторов х3 и х2, х4 и х2, х4 и х3:

Найдены мультиколлинеарные факторы.

Для устранения мультиколлинеарности используется метод исключения переменных.

Будем исключать факторы, имеющие наименьшее значение .

Рассмотрим первую пару мультиколлинеарных факторов . Для исключения переменных необходимо знать, как каждый из факторных признаков связан с результативным признаком «Y». Эта зависимость отражается в последней строке матрицы парной корреляции. Итак, . Далее необходимо сравнить эти значения: . Следовательно, факторный признак «х3» из модели можно исключить, т.к. его связь с результативным признаком меньше, чем у «х2». Аналогично, рассматриваются оставшиеся пары.

Вторая пара ; . . Следовательно, факторный признак «х4» из модели можно исключить, т.к. его связь с результативным признаком меньше, чем у «х2».

Третью пару можно не рассматривать, т.к. и «х3» и «х4» из модели уже исключены.

4. После устранения мультиколлинеарности уравнение многофакторной регрессии будет выглядеть следующим образом:

= а+b1х1+b2х2 +b5х5.

Минимальный объем выборки определим по формуле:

Nmin=5*(m+n).

В нашем случаем m = 3 (т.к. в модель включены 3 факторов), n = 1 (т.к. в модели 1 свободный член – «а»).

Следовательно, Nmin=5*(3+1) = 20, т.е. для получения статистически значимой модели необходимо отобрать20 квартир и собрать по ним необходимые данные.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow