Задача с высокой мультиколлинеарностью

Следующая задача – одна из первых эконометрических задач. В ней исследуется зависимость потребления бройлеров в Англии в 20-е – 30-е годы в зависимости от среднедушевого дохода и цены курятины, говядины и свинины. Данные можно считать “панельными” (panel data), так как все переменные фактически зависят от времени. Было предложено и исследовано несколько моделей:

1. Функция спроса Ŷ = b0 * X2b1
2. Функция потребления Ŷ = b0 * X1b1
3. Функция спроса-потребления Ŷ = b0 * (X2/X1)b1
4. Модель спроса на несколько товаров Ŷ = b0*X2b2*X3b3*X4b4

Мы используем мультипликативную модель, как в предыдущих задачах:

Ŷ = b0* X1 b1 *X2 b2 *X3 b3 *X4 b4. Последние 4 строки не используйте для проведения вычислений. Мы их используем для оценки адекватности модели.

Этапы исследования модели:

1. Построить корреляционную матрицу по всем переменным, включая время. Построить графики всех переменных в зависимости от времени. Выбрать вид модели.

2. Выбрать мультипликативную модель и линеаризовать её логарифмированием:

Ln Ŷ = Ln b0+ b1*LnX1+b2*LnX2+b3*LnX3+b4*LnX4

после переобозначения

Z^ = a + b1V1 + b2V2 +b3V3 + b4V4

3. Построить корреляционную матрицу

Таблица 7.8.

  t V1 V2 V3 V4 Z
t            
V1 0,995          
V2 0,879 0,882        
V3 0,926 0,932 0,968      
V4 0,983 0,973 0,898 0,938    
Z 0,924 0,912 0,661 0,774 0,877  

Обратите внимание на высокие коэффициенты корреляции всех переменных. Это называется мультиколлинеарность и приводит к существенному росту погрешности коэффициентов модели. Если вспомнить, что эти коэффициенты являются эластичностями результата по влияющим переменным, то становится понятно, что мультиколлинеарность может привести к существенным ошибкам при планировании.


№ п/п Средне-душевой доход Стоимость 1 фунта цыплят Стоимость 1 фунта свинины Стоимость 1 фунта говядины Потреб-ление цыплят Л о г а р и ф м ы  
t X1 X2 X3 X4 Y V1 V2 V3 V4 Z Z^ Y^
  492,9 37,3 54,7 77,4 31,2 6,20 3,62 4,00 4,35 3,44 3,50 33,20
  528,6 38,1 63,7 80,2 33,3 6,27 3,64 4,15 4,38 3,51 3,54 34,62
  560,3 39,3 69,8 80,4 35,6 6,33 3,67 4,25 4,39 3,57 3,55 34,88
  624,6 37,8 65,9 83,9 36,4 6,44 3,63 4,19 4,43 3,59 3,58 35,76
  666,4 38,4 64,5 85,5 36,7 6,50 3,65 4,17 4,45 3,60 3,57 35,62
  717,8 40,1   93,7 38,4 6,58 3,69 4,25 4,54 3,65 3,61 37,09
  768,2 38,6 73,2 106,1 40,4 6,64 3,65 4,29 4,66 3,70 3,70 40,43
  843,3 39,8 67,8 104,8 40,3 6,74 3,68 4,22 4,65 3,70 3,66 38,89
  911,6 39,7 79,1   41,8 6,82 3,68 4,37 4,74 3,73 3,74 41,98
  931,1 52,1 95,4 124,1 40,4 6,84 3,95 4,56 4,82 3,70 3,69 39,97
  1021,5 48,9 94,2 127,6 40,7 6,93 3,89 4,55 4,85 3,71 3,73 41,63
  1165,9 58,3 123,5 142,9 40,1 7,06 4,07 4,82 4,96 3,69 3,76 42,92
  1349,6 57,9 129,9 143,6 42,7 7,21 4,06 4,87 4,97 3,75 3,78 43,67
  1449,4 56,5 117,6 139,2 44,1 7,28 4,03 4,77 4,94 3,79 3,75 42,56
  1575,5 63,7 130,9 165,5 46,7 7,36 4,15 4,87 5,11 3,84 3,80 44,59
  1759,1 61,6 129,8 203,3 50,6 7,47 4,12 4,87 5,31 3,92 3,91 49,71
  1994,2 58,9   219,6 50,1 7,60 4,08 4,85 5,39 3,91 3,96 52,47
  2258,1 66,4   221,6 51,7 7,72 4,20 4,95 5,40 3,95 3,93 50,85

4. Постройте графики логарифмов всех переменных

Рис. 7.4. Логарифмы переменных.

Как видите, для логарифмов можно использовать линейную модель.

5. Получить коэффициенты a, b1, b2, b3, b4, R 2, F используя функцию ЛИНЕЙН, сервис Регрессия или Поиск решения. Расчёты проводить по логарифмам, как в прошлой задаче. 4 последних строки не использовать!

Последовательно исключайте из модели цены на говядину, свинину, а затем и курятину. Должны получиться следующие результаты:

Таблица 7.10.

                   
  R2 частн Коэф t Коэф. t Коэф. t Коэф t
a   2,377 8,36 2,406 8,807 2,153 12,3 1,898 8,32
b1 0,39 0,313 2,86 0,373 5,648 0,424 8,39 0,261 7,69
b2 0,28 -0,55 -2,92 -0,544 -2,94 -0,357 -3,6    
b3 0,03 0,168 1,05 0,183 1,189        
b4 0,07 0,115 0,68            
R2   0,937   0,933   0,924   0,832  
R2 норм   0,909   0,914   0,91   0,818  
F   33,32   46,72   66,86   59,26  

Обратите внимание, что коэффициент корреляции Cor (Z,V2) = 0,661, то есть положительный, а коэффициент b2 – отрицательный, что правильнее отражает взаимосвязь потребления курятины и её цены. Здесь проявилась ложная корреляция, связанная с коинтеграцией: все переменные модели растут со временем, и только регрессионный анализ позволяет выделить истинное взаимное влияние переменных. t -статистики коэффициентов b3 и b4 незначительны, и мы не можем принять гипотезу о влиянии цен на свинину и говядину на потребление цыплят. Последовательное исключение из модели говядины и свинины приводит к росту F -статистики, то есть качества модели, а исключение цен на цыплят приводит к уменьшению F -статистики и коэффициента детерминации R2.

В таблицу результатов 7.10 включены нормированные, или скорректированные коэффициенты детерминации R2норм, учитывающие поправку на число степеней свободы суммы квадратов остатков. Если это не учитывать, то получится систематическое завышение коэффициента детерминации.

В таблицу также включены частные коэффициенты детерминации, характеризующие тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включённых в уравнение регрессии. Расчётная формула частного коэффициента детерминации

где R 2 безXi – коэффициент детерминации, вычисленный при исключённом из модели факторе Xi. Мы выяснили, что основным фактором, влияющим на продажу цыплят, является среднедушевой доход. Цены на цыплят также влияют на их потребление, причём негативно.

Исключение свинины и говядины приводит к смещению оценок эластичностей по доходам и цене цыплят, но погрешность прогнозов, оценённая методом Монте-Карло, уменьшается в среднем на 35%. Корреляции некоторых коэффициентов модели, полученные методом Монте-Карло, велики и, как правило, отрицательны:

Таблица 7.11. Корреляционная матрица коэффициентов уравнения регрессии

  b4 b3 b2 b1 a
b4          
b3 -0,118        
b2 -0,109 -0,837      
b1 -0,790 -0,312 0,234    
a -0,139 0,790 -0,767 -0,242  

В таблице 7.12 показано, как влияет на ошибки включение в модель незначимого фактора и исключение значимого.

Таблица 7.12.

  Истинная модель
Оценка модели   Y=α+β1X1 + u Y=α+β1X1 + β2X2+u
Y^=a+bX1 Верно Коэф.смещены, σ коэф. неверны
Y=a+b1X1 + b2X2 Коэффиц. не смещены, но неэффективны σ коэф. верны   Верно

Проверка модели на адекватность осуществляется следующим образом. Ряд измерений не используются при настройке модели, затем проводится прогноз соответствующих эндогенных переменных и сравнение прогнозных и реальных значений. В случае парной регрессии можно оценить интервальное среднеквадратичное отклонение Yпрогноз по формуле

и посмотреть, попадают ли реальные значения Y в интервал Y^ ± 2 SYпрогноз. В случае множественной регрессии, особенно при наличии мультиколлинеарности, оценить SYпрогноз достаточно сложно, и лучше сравнивать графики Y и Y^.

Рис.7.5. Проверка на адекватность аддитивной (1) и мультипликативной модели (2).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: