Основные гипотезы

Линейная регрессионная модель с двумя переменными

Легко убедиться, что для функции вида Y= f(X) для одного X мы можем наблюдать разные значения Y.

Пример 1. X - возраст индивидуума, Y – его зарплата.

Пример 2. X - доход семьи, Y – расходы на питание.

Запишем уравнение зависимости Yt от Xt в виде

Yt=a+bxt+et , t= 1,2,3,….,n,

где Xt - неслучайная (детерминированная) величина, а Yt, et - случайные величины. YT – объясняемая (зависимая) переменная, а Xt - объясняющая (независимая) переменная, или регрессор. Уравнение, приведенное выше, также называется регрессионным уравнением.

Какова природа ошибки et?

Есть две основные возможные причины случайности:

1. Наша модель является упрощением действительности, и на самом деле есть еще другие параметры (пропущенные), от которых зависит Y. Зарплата, например, может зависеть от уровня образования, стажа работы, пола, типа фирмы (государственная, частная) и т. д.

2. Трудности в измерении данных (присутствуют ошибки измерений). Например, данные по расходам семьи на питание составляют на основании записей участников опросов, которые, как предполагается, тщательно фиксируют свои ежедневные расходы. Разумеется, при этом возможны ошибки.

Таким образом, можно считать, что et – случайная величина с некоторой функцией распределения, которой соответствует функция распределения случайной величины Yt.

1. Yt=a+bXt+et, t=1,2,….,n – спецификация модели.

2. Xt – детерминированная величина; вектор (X1,X2,…,Xn)`не коллинеарен вектору s = (1,….,1)`.

3а. E et = 0, E(et2) = V (et) = s2 – не зависит от t.

3б. E (et es) = 0. При t ¹ s – некоррелированность ошибок для разных наблюдений.

Часто добавляется условие:

3в. et ~ N (0,s2), т.е. et – нормально распределенная случайная величина со средним 0 и дисперсией s2. В этом случае модель называется нормальной линейной регрессионной.

Обсудим гипотезы, лежащие в основе линейной регрессионной модели.

1.Спецификация модели отражает наше представление о механизме зависимости Yt от Xt и сам выбор объясняющей переменной Xt.

Условия 3а, 3б в векторной форме могут быть записаны следующим образом:

E e = 0, V(e) = s2In,

где e = (e1, ……., en)`, In – nxn единичная матрица, nxn - матрица ковариаций.

Условие независимости дисперсии ошибки от номера наблюдения E(et2)=V(et)=s2, t=1,2,3,…,n называется гомоскедастичностью; случай, когда условие гомоскедастичности не выполняется, называется гетероскедастичностью. На рис. 3 приведен пример типичной картины для случая гомоскедастичности ошибок, на рис. 4 – пример данных с гетероскедастичными ошибками.


Рис. 3 Рис. 4

Условие E (etes) = 0, t ¹ s указывает на некоррелированность ошибок для разных наблюдений. Это условие часто нарушается в случае, когда наши данные являются переменными рядами. В случае, когда это условие не выполняется, говорят об автокорреляции остатков.

Для простейшего случая автокорреляции остатков, когда E(et,et+1)=r¹0, типичный вид данных показан на рис. 5 (r> 0) и 6 (r<0).

 
 


Рис. 5 Рис. 6

Отметим, что условия 3а, 3б можно также написать в терминах зависимой переменной: Eyt=a+bxt, V(yt)=s2 , Cov(yt, ys)=0, t¹s.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: