Прогнозирование по модели простой линейной регрессии

Предположим, что мы построили линейную модель и оценили её параметры МНК. Если модель адекватна, то мы имеем возможность определять прогнозные значения зависимой переменной, исходя из построенной модели. При этом различают два типа прогнозов: точечный и интервальный. Точечный прогноз дает возможность получить значение зависимой переменной, например, Y_n₊₁ для соответствующего значения исходя из построенной модели:

. (39)

При этом, исходя из обобщенной модели, действительное значение Y для прогнозного периода будет

y_n+1 = a + bx_n+1 + e_n+1, (40)

где e_n₊₁ - значение случайной величины, не наблюдаемой в (n+1) периоде. Нетрудно убедиться, что для генеральной совокупности мы не можем определить действительное значение Y, но у нас есть возможность оценить его с помощью прогноза.

Таким образом, прогнозное значение является оценкой действительного значения переменной y_n₊₁ и мы можем определять любые прогнозные значения. Пусть такое прогнозное значение будет точечным. Исходя из точечного прогноза мы можем построить интервалы доверия для действительного значения зависимой переменной, другими словами, построить интервал, в который с заданной вероятностью попадает действительное значение зависимой переменной. Такой интервал доверия при заданном уровне значимости a для y_n₊₁ определяется по формуле

. (41)

На практике больший интерес представляет построение интервалов доверия для математического ожидания y_n₊₁:

E (y_n+1) = a + bx_n+1. (42)

При заданном уровне значимости a такой прогноз определяют следующим образом:

. (42)

П р и м е р. Доходы семьи. В этом примере используются данные обследования 3781 семей Российской Федерации, проведенного осенью 1999 года совместно Госкомстатом РФ, Институтом социологии РАН, Институтом питания РАМН и Университетом Северной Каролины (США). Пусть Inc обозначает реальный доход семьи, Expend - её реальные расходы. Для того, чтобы исследовать зависимость расходов от доходов, оценим коэффициент регрессии и неизвестные параметры.

Для всех типов семей (количество наблюдений 3594):

Expend = 4663,3 + 0,686 Inc, R² = 0,21, S = 11307.

(233,6) (0,0223)

В скобках приведены стандартные ошибки коэффициентов регрессии. Соответствующие t-статистики равны 19,96 и 30,81, т.е. коэффициенты статистически достоверно отличаются от нуля. Однако значение коэффициента детерминации R² невелико. Это объясняется, конечно, разнородностью семей, как по составу, так и по другим факторам, таким, как место проживания, структура расходов, состав семьи и т. д. Таким образом, для более однородной выборки семей мы вправе ожидать увеличения коэффициента детерминации.

Для семей, состоящих из одного человека (количество наблюдений 509),

Expend = 3229,2 + 0,355 Inc, R² =0,39, S = 4567.

(182,0) (0,0162)

Как и в предыдущем случае, коэффициенты являются значимыми; t-статистики равны соответственно 17,74 и 20,70. Как мы и ожидали, качество подгонки улучшилось – коэффициент R² возрос с 0,21 до 0,39, а оценка стандартного отклонения остатков S уменьшилась с 11307 до 4567. Так как в семьях, состоящих из одного человека, нет расходов на содержание неработающих членов семьи (детей, престарелых), то на потребление тратится меньшая часть прироста дохода. Склонность к потреблению определяется как ¶Expend/¶Inc, для семьи из одного человека она составляет 0,355, в то время как в среднем по всей выборке – 0,686.

Обозначим через NF количество членов в семье. Оценим регрессию среднего расхода на членов семьи на средний доход члена семьи (количество наблюдений 3594):

Expend / NF = 2387,2 + 0,447 Inc/NF, R² = 0,24, S = 4202.

(76,8) (0,0133)

Значение R² увеличилось по сравнению с первой регрессией. Переход к удельным данным приводит к уменьшению дисперсии данных.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями: