Методические указания. Занятие 6 Тема: Построение и базовый анализ классической линейной модели множественной регрессии

1 2 3 4 5 6 7

Занятие 6 Тема: Построение и базовый анализ классической линейной модели множественной регрессии

Методические указания

Модель множественной линейной регрессии можно представить в виде:

(1)

где i = 1, 2, …, n число наблюдений.

ε_i – регрессионные ошибки случайного характера,

y_i – i-е наблюдение зависимой переменной,

x_i₁, x_i₂,… x_ik. – i-е наблюдение объясняющих переменных,

β₀,β₁ …β_k – неизвестные параметры модели.

Пусть:

Y обозначает матрицу (вектор-столбец) (y₁,…, y_n)^Т (Т вверху означает транспонирование),

β = (β₀, β₁, …, β_к)^Т – вектор-столбец коэффициентов (неизвестных значений параметров модели),

ε = (ε₁, ε₂, …, ε_n)^Т – вектор-столбец ошибок,

- матрицу объясняющих переменных, которая соответствует набору векторов-столбцов объясняющих переменных, а также вектору-столбцу из единиц, отвечающему за константу в уравнении модели. Матрица должна быть матрицей полного ранга.

- единичная матрица размерности ;

- ковариационная матрица размерности вектора ошибки.

Гипотезы, лежащие в основе множественной регрессии в матричной форме выглядят следующим образом:

1. Y=Xβ+ε – спецификация модели;

2. X – детерминированная матрица, имеет максимальный ранг k+1;

3. a,b. E(ε)= 0; V(ε)=E(εε^T)=σ² I_n;

дополнительное условие:

3. с. ε ~N(0,σ² I_n ), т.е. ε – нормально распределенный случайный вектор со средним 0 и матрицей ковариаций σ² I_n (нормальная линейная регрессионная модель).

Оценкой этой модели по выборке является уравнение:

Y = X + e,

Где – вектор-столбец оценок неизвестных параметров модели;

e = (e₁, e₂, …, e_n)^Т – вектор –столбец регрессионных остатков.

Оценка неизвестных параметров модели методом наименьших квадратов:

(2)

Пусть истинное значение j-го коэффициента регрессии. Тогда статистика

(3)

распределена по закону Стьюдента (t-распределения) с n-k-1 степенями свободы.

Из (3) получаем, что интервал

является 100(1-α)%-ным доверительным интервалом для истинного значения коэффициента , где -ная точка распределения Стьюдента с n-k-1 степенями свободы.

При проверке гипотезы H_o: β_j=0 t-статистика выглядит

Значение позволяет сделать вывод об отличии от нуля (на уровне значимости α) заданного коэффициента регрессии и, следовательно, о наличии влияния (связи) X_j на Y.

Общей характеристикой модели может служить коэффициент детерминации R² и F-статистика модели:

В предположении справедливости гипотезы о том, что все коэффициенты модели, кроме константы, равны нулю, т.е. β₁= β₂= … =β_к=0 в условиях нормальной линейной модели множественной регрессии, F-статистика должна подчиняться распределению Фишера со степенями свободы (k, n-k-1). Следовательно справедливость этой гипотезы можно проверить следующим образом. По заданному критерию значимости α из таблиц определяют 100α%-ую точку F(k, n-k-1)-распределения f_α(k, n-k-1). Если окажется, что

то гипотеза об отсутствии линейной связи между переменной Y и объясняющими переменными отвергается (с вероятностью ошибки, равной α), и принимается – в противном случае.

Задание 1. Построить для следующих данных из таблицы 1 линейную модель множественной регрессии и провести её базовый анализ в предположении, что построенная модель является нормальной моделью множественной регрессии.

Таблица 1. Исходные данные для модели множественной регрессии