Линейная модель множественной регрессии.
Вопросы:
1.
Линейная модель множественной регрессии в скалярной и векторной формах. МНК оценки коэффициентов множественной регрессии.
2.
Ковариационная матрица оценок коэффициентов регрессии. Оценка дисперсии ошибок.
3.
Теорема Гаусса-Маркова.
4.
Коэффициент детерминации, скорректированный коэффициент детерминации.
5.
Частная корреляция.
6.
Проверка статистических гипотез, доверительные интервалы.
Линейная модель множественной регрессии в скалярной и векторной формах. МНК оценки коэффициентов множественной регрессии.
Включение в уравнение множественной регрессии того или иного набора факторов связано, прежде всего, с представлением о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:
1.
они должны быть количественно измеримы (качественные показатели могут быть проранжированы);
2.
факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной зависимости.
|
|
Включаемые факторы должны объяснять вариацию зависимой переменной. Если строится модель с р факторами, то для неё можно определить R2 – коэффициент детерминации, который фиксирует долю объясненной вариации признака. Влияние других, не учтенных в модели, факторов оценивается (1–R2) с соответствующей остаточной дисперсией. При дополнительном включении в регрессию (р + 1)-го фактора коэффициент R2 должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, то включаемый фактор является лишним. Насыщение модели лишними факторами приводит к статистической незначимости параметров регрессии.
Как и в парной зависимости возможны разные виды уравнений множественной регрессии: линейные и нелинейные. Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции (степенная легко линеаризуется).
Рассмотрим линейную модель множественной регрессии:
.
По выборке объёма n оценивается уравнение регрессии
,
где неизвестные коэффициенты оцениваются МНК, при котором минимизируется сумма квадратов остатков, позволяя получить систему нормальных уравнений:
Решение системы может быть получено, например, по формулам Крамера:
, при этом
.
Оценим коэффициенты регрессии МНК в матричной форме. Обозначим
, , , ,
Значения признака Матрица объясняющих Вектор Вектор Вектор
переменных, столбцами регрессора j случайных коэффициентов
которой являются Xj ошибок регрессии
Модель множественной регрессии примет вид
,
где Х – детерминированная матрица, Y и - случайные матрицы. Пусть , где - вектор модельных значений. Сумма квадратов остатков минимизируется:
|
|
.
Необходимые условия получают дифференцированием по вектору .
.
Аналогично парной регрессии, можно показать, что вектор остатков е всем независимым переменным и S = (1…1)T, а вектор - есть ортогональная проекция вектора Y на гиперплоскость, образованную S и Х. Кроме того,
, .
Если перейти к стандартизованному масштабу:
, , …, ,
уравнение регрессии примет вид:
,
где коэффициенты могут быть определены из системы уравнений
,
здесь и - парные коэффициенты корреляции.
Вернуться от стандартизованного масштаба к обычному можно с помощью соотношений:
, .
И, наконец, параметры уравнения множественной регрессии можно определить с помощью ППП:
ППП Excel:
а) Сервис/Анализ данных/Описательная статистика
б) Сервис/Анализ данных/Корреляция
в) Сервис/Анализ данных/Регрессия
ППП Statgraphic:
а) Describe/Numeric Data/Multiple Variable Analysis/ в доп. меню поставить флажки на Summary Statistics, Correlations, Partial Correlations
б) Relate/Multiple Regression.
Пример. Известны следующие данные (условные) о сменной добыче угля на одного рабочего Y (т), мощности пласта Х1 (м) и уровне механизации работ Х2 (%), характеризующие процесс добычи угля на 7 шахтах. Предполагая, что между Y, X1, X2 существует линейная корреляционная зависимость, найти её аналитическое выражение.
№ | Х1 | Х2 | Y |
1 | 8 | 5 | 5 |
2 | 11 | 8 | 10 |
3 | 12 | 8 | 10 |
4 | 9 | 5 | 7 |
5 | 8 | 7 | 5 |
6 | 8 | 8 | 6 |
7 | 9 | 6 | 6 |
Решение.
Проверим однородность выборки.
Vy= | 30,86067% |
Vx1= | 17,26919% |
Vx2= | 20,55514% |
Так как все значения меньше 35 %, то выборка однородна, и её можно использовать для анализа.