Следующая задача – одна из первых эконометрических задач. В ней исследуется зависимость потребления бройлеров в Англии в 20-е – 30-е годы в зависимости от среднедушевого дохода и цены курятины, говядины и свинины. Данные можно считать “панельными” (panel data), так как все переменные фактически зависят от времени. Было предложено и исследовано несколько моделей:
1. Функция спроса Ŷ = b0 * X2b1 |
2. Функция потребления Ŷ = b0 * X1b1 |
3. Функция спроса-потребления Ŷ = b0 * (X2/X1)b1 |
4. Модель спроса на несколько товаров Ŷ = b0*X2b2*X3b3*X4b4 |
Мы используем мультипликативную модель, как в предыдущих задачах:
Ŷ = b0* X1 b1 *X2 b2 *X3 b3 *X4 b4. Последние 4 строки не используйте для проведения вычислений. Мы их используем для оценки адекватности модели.
Этапы исследования модели:
1. Построить корреляционную матрицу по всем переменным, включая время. Построить графики всех переменных в зависимости от времени. Выбрать вид модели.
2. Выбрать мультипликативную модель и линеаризовать её логарифмированием:
|
|
Ln Ŷ = Ln b0+ b1*LnX1+b2*LnX2+b3*LnX3+b4*LnX4
после переобозначения
Z^ = a + b1V1 + b2V2 +b3V3 + b4V4
3. Построить корреляционную матрицу
Таблица 7.8.
t | V1 | V2 | V3 | V4 | Z | |
t | ||||||
V1 | 0,995 | |||||
V2 | 0,879 | 0,882 | ||||
V3 | 0,926 | 0,932 | 0,968 | |||
V4 | 0,983 | 0,973 | 0,898 | 0,938 | ||
Z | 0,924 | 0,912 | 0,661 | 0,774 | 0,877 |
Обратите внимание на высокие коэффициенты корреляции всех переменных. Это называется мультиколлинеарность и приводит к существенному росту погрешности коэффициентов модели. Если вспомнить, что эти коэффициенты являются эластичностями результата по влияющим переменным, то становится понятно, что мультиколлинеарность может привести к существенным ошибкам при планировании.
№ п/п | Средне-душевой доход | Стоимость 1 фунта цыплят | Стоимость 1 фунта свинины | Стоимость 1 фунта говядины | Потреб-ление цыплят | Л о г а р и ф м ы | ||||||
t | X1 | X2 | X3 | X4 | Y | V1 | V2 | V3 | V4 | Z | Z^ | Y^ |
492,9 | 37,3 | 54,7 | 77,4 | 31,2 | 6,20 | 3,62 | 4,00 | 4,35 | 3,44 | 3,50 | 33,20 | |
528,6 | 38,1 | 63,7 | 80,2 | 33,3 | 6,27 | 3,64 | 4,15 | 4,38 | 3,51 | 3,54 | 34,62 | |
560,3 | 39,3 | 69,8 | 80,4 | 35,6 | 6,33 | 3,67 | 4,25 | 4,39 | 3,57 | 3,55 | 34,88 | |
624,6 | 37,8 | 65,9 | 83,9 | 36,4 | 6,44 | 3,63 | 4,19 | 4,43 | 3,59 | 3,58 | 35,76 | |
666,4 | 38,4 | 64,5 | 85,5 | 36,7 | 6,50 | 3,65 | 4,17 | 4,45 | 3,60 | 3,57 | 35,62 | |
717,8 | 40,1 | 93,7 | 38,4 | 6,58 | 3,69 | 4,25 | 4,54 | 3,65 | 3,61 | 37,09 | ||
768,2 | 38,6 | 73,2 | 106,1 | 40,4 | 6,64 | 3,65 | 4,29 | 4,66 | 3,70 | 3,70 | 40,43 | |
843,3 | 39,8 | 67,8 | 104,8 | 40,3 | 6,74 | 3,68 | 4,22 | 4,65 | 3,70 | 3,66 | 38,89 | |
911,6 | 39,7 | 79,1 | 41,8 | 6,82 | 3,68 | 4,37 | 4,74 | 3,73 | 3,74 | 41,98 | ||
931,1 | 52,1 | 95,4 | 124,1 | 40,4 | 6,84 | 3,95 | 4,56 | 4,82 | 3,70 | 3,69 | 39,97 | |
1021,5 | 48,9 | 94,2 | 127,6 | 40,7 | 6,93 | 3,89 | 4,55 | 4,85 | 3,71 | 3,73 | 41,63 | |
1165,9 | 58,3 | 123,5 | 142,9 | 40,1 | 7,06 | 4,07 | 4,82 | 4,96 | 3,69 | 3,76 | 42,92 | |
1349,6 | 57,9 | 129,9 | 143,6 | 42,7 | 7,21 | 4,06 | 4,87 | 4,97 | 3,75 | 3,78 | 43,67 | |
1449,4 | 56,5 | 117,6 | 139,2 | 44,1 | 7,28 | 4,03 | 4,77 | 4,94 | 3,79 | 3,75 | 42,56 | |
1575,5 | 63,7 | 130,9 | 165,5 | 46,7 | 7,36 | 4,15 | 4,87 | 5,11 | 3,84 | 3,80 | 44,59 | |
1759,1 | 61,6 | 129,8 | 203,3 | 50,6 | 7,47 | 4,12 | 4,87 | 5,31 | 3,92 | 3,91 | 49,71 | |
1994,2 | 58,9 | 219,6 | 50,1 | 7,60 | 4,08 | 4,85 | 5,39 | 3,91 | 3,96 | 52,47 | ||
2258,1 | 66,4 | 221,6 | 51,7 | 7,72 | 4,20 | 4,95 | 5,40 | 3,95 | 3,93 | 50,85 |
4. Постройте графики логарифмов всех переменных
|
|
Рис. 7.4. Логарифмы переменных.
Как видите, для логарифмов можно использовать линейную модель.
5. Получить коэффициенты a, b1, b2, b3, b4, R 2, F используя функцию ЛИНЕЙН, сервис Регрессия или Поиск решения. Расчёты проводить по логарифмам, как в прошлой задаче. 4 последних строки не использовать!
Последовательно исключайте из модели цены на говядину, свинину, а затем и курятину. Должны получиться следующие результаты:
Таблица 7.10.
R2 частн | Коэф | t | Коэф. | t | Коэф. | t | Коэф | t | |
a | 2,377 | 8,36 | 2,406 | 8,807 | 2,153 | 12,3 | 1,898 | 8,32 | |
b1 | 0,39 | 0,313 | 2,86 | 0,373 | 5,648 | 0,424 | 8,39 | 0,261 | 7,69 |
b2 | 0,28 | -0,55 | -2,92 | -0,544 | -2,94 | -0,357 | -3,6 | ||
b3 | 0,03 | 0,168 | 1,05 | 0,183 | 1,189 | ||||
b4 | 0,07 | 0,115 | 0,68 | ||||||
R2 | 0,937 | 0,933 | 0,924 | 0,832 | |||||
R2 норм | 0,909 | 0,914 | 0,91 | 0,818 | |||||
F | 33,32 | 46,72 | 66,86 | 59,26 |
Обратите внимание, что коэффициент корреляции Cor (Z,V2) = 0,661, то есть положительный, а коэффициент b2 – отрицательный, что правильнее отражает взаимосвязь потребления курятины и её цены. Здесь проявилась ложная корреляция, связанная с коинтеграцией: все переменные модели растут со временем, и только регрессионный анализ позволяет выделить истинное взаимное влияние переменных. t -статистики коэффициентов b3 и b4 незначительны, и мы не можем принять гипотезу о влиянии цен на свинину и говядину на потребление цыплят. Последовательное исключение из модели говядины и свинины приводит к росту F -статистики, то есть качества модели, а исключение цен на цыплят приводит к уменьшению F -статистики и коэффициента детерминации R2.
В таблицу результатов 7.10 включены нормированные, или скорректированные коэффициенты детерминации R2норм, учитывающие поправку на число степеней свободы суммы квадратов остатков. Если это не учитывать, то получится систематическое завышение коэффициента детерминации.
В таблицу также включены частные коэффициенты детерминации, характеризующие тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включённых в уравнение регрессии. Расчётная формула частного коэффициента детерминации
где R 2 безXi – коэффициент детерминации, вычисленный при исключённом из модели факторе Xi. Мы выяснили, что основным фактором, влияющим на продажу цыплят, является среднедушевой доход. Цены на цыплят также влияют на их потребление, причём негативно.
Исключение свинины и говядины приводит к смещению оценок эластичностей по доходам и цене цыплят, но погрешность прогнозов, оценённая методом Монте-Карло, уменьшается в среднем на 35%. Корреляции некоторых коэффициентов модели, полученные методом Монте-Карло, велики и, как правило, отрицательны:
Таблица 7.11. Корреляционная матрица коэффициентов уравнения регрессии
b4 | b3 | b2 | b1 | a | |
b4 | |||||
b3 | -0,118 | ||||
b2 | -0,109 | -0,837 | |||
b1 | -0,790 | -0,312 | 0,234 | ||
a | -0,139 | 0,790 | -0,767 | -0,242 |
В таблице 7.12 показано, как влияет на ошибки включение в модель незначимого фактора и исключение значимого.
Таблица 7.12.
Истинная модель | |||
Оценка модели | Y=α+β1X1 + u | Y=α+β1X1 + β2X2+u | |
Y^=a+bX1 | Верно | Коэф.смещены, σ коэф. неверны | |
Y=a+b1X1 + b2X2 | Коэффиц. не смещены, но неэффективны σ коэф. верны | Верно |
Проверка модели на адекватность осуществляется следующим образом. Ряд измерений не используются при настройке модели, затем проводится прогноз соответствующих эндогенных переменных и сравнение прогнозных и реальных значений. В случае парной регрессии можно оценить интервальное среднеквадратичное отклонение Yпрогноз по формуле
|
|
и посмотреть, попадают ли реальные значения Y в интервал Y^ ± 2 SYпрогноз. В случае множественной регрессии, особенно при наличии мультиколлинеарности, оценить SYпрогноз достаточно сложно, и лучше сравнивать графики Y и Y^.
Рис.7.5. Проверка на адекватность аддитивной (1) и мультипликативной модели (2).