Алгоритм проверки значимости регрессоров во множественной регрессионной модели: выдвигаемая статистическая гипотеза, процедура ее проверки

1 2 3 4 5 6 7

Формируем t-статистику, используя вспомогательные случайные величины:

1) V=∑e_t^2/σ^2=(e^Te)/ σ^2, где

^ E=MY=M(Xβ+ɛ)=MXβ+Mɛ= Mɛ,

Поэтому V=(e^Te)/ σ^2=(ɛ/ σ)^T*M(ɛ/ σ)

Симметричную матрицу можно представить в виде

M=O^T*Λ*O, где O-ортогональная матрица, Λ- диагональная матрица.

Если X-собственный вектор идемпотентной матрицы M, а λ-соответствующее собственное значение, то по определению собственного вектора и свойства идемпотентности:

λX=MX=MMX=MλX=λMX=λ²*X, или (λ-λ²)X=0, λ(1-λ)=0

Тогда статистику V можно представить следующим образом:

V=(e^t*e)/σ^2=(ε/σ)^T*O^T*Λ*O(ε/σ)=(O* ε/σ)^T*Λ*(O*ε/σ)=S^T* Λ*S,

где S – стандартный гауссовский вектор. Отсюда следует, что V представляет сумму квадратов независимых нормальных случайных величин и число слагаемых равно рангу матрицы M. Таким образом, случайная величина V имеет распределение χ²(r), где r=rank(M), т.е.V=∑ e _t^2/ σ^2=(e ^T* e)/ σ^2 ̴ χ^2*(n-k)

2. Вторая вспомогательная статистика – стандартная нормальная случайная величина, обозначим ее Z_βj: Z_βj=(β_j-β ^͠_j)/ σ _{β ͠j}̴ N(0,1), j=1,…k, где β_jи β ^͠_j-j-е элементы векторов βи β ^͠ соответственно. Тогда, по определению, t _βj=Z_βj/√(V/(n-k))=(β_j- β ^͠_j)/s_βj̴ t(n-k), j=1,…k, т.е. представляют собой t-статистики с n-k степенями свободы и не зависят от неизвестных параметров σ² и σ ͠_βj. Здесь учтено, что (σ ͠_βj)/ σ²= s_βj ̴ /s. Задаваясь некоторым уровнем значимости α, по таблицам t-распределения можно определить критическое значение статистики t_кр и, применяя стандартную процедуру, построить доверительный интервал с границами β ^͠_j+/- t_кр s_βj ̴, где оценка s²_βj является j-м элементом вектора s²_β ̴ =[s²(X^TX)^-1]_dg. T-статистика используется для проверки статистической значимости оценок параметров множественной регрессии. При справедливости гипотезы H₀: β_j=0, вычисляется статистика вида: |t|=| β ^͠_j/ s_βj ͠ | ̴ t(n-k), имеющая распределение Стьюдента (n- объем выборки, k - числопараметров модели). Вычисленное значение сравнивается с критическим (выбранным из таблиц t-распределения по число степеней свободы (n-k) и уровню значимости α), и если |t|˃t_кр, гипотеза H₀: β_j=0 отвергается и коэффициент признается статистически значимым, в случае |t|˂/=t_кркоэффициент β ^͠_jпризнается статистически незначимым и регрессор X_j рекомендуется исключить из уравнения регрессии, так как он не оказывает существенного влияния на эндогенную переменную модели.

10. Коэффициент детерминации в парной регрессионной модели: определение, расчетная формула, смысл компонентов формулы, смысл коэффициента детерминации.

Линейная парная регрессионная модель используется для описания взаимосвязи двух переменных Y и X, если имеется предположения, что между ними существует линейная стохастическая зависимость: y=a+bx+ε, где а и b – параметры модели (постоянные неизвестные коэффициенты); Х- независимая переменная; Y— зависимая переменная; ε - случайная переменная (возмущение, ошибка), возникающая из-за влияния различных неучтенных факторов.

Уравнение для отдельных наблюдений зависимой переменной Y записывается в виде: y_t=a+bx_t+ε_t

где Х_tY_t, - набор данных (наблюдений), t = 1, 2,..., n;

X_t – экзогенная переменная модели); ε_t - случайная ошибка в наблюдении t.

Если отклонение зависимой переменной Y_t, от ее выборочного среднего значения представить в виде суммы двух отклонений:

и выборочную дисперсию var(Y) можно представить в виде двух частей:

Часто это уравнение записывают так:

TSS = ESS + RSS,

где TSS = var(Y) – полная дисперсия (общая сумма квадратов отклонений зависимой переменной от ее выборочного значения);

ESS = Σ(Y_t-Ŷ_t)² – часть дисперсии, необъясненная регрессией (т.к. она содержит ошибки регрессии ε_t);

- часть дисперсии, объясненная регрессией (объясненная сумма квадратов отклонений).

Качество подгонки регрессионной модели к наблюденным значениям Y_t оценивается при помощи статистики R² (коэффициента детерминации).

Коэффициент детерминации определяется по формуле

R² = 1-ESS / TSS = RSS / TSS; 0≤R²≤1

Чем ближе значение коэффициента детерминации к 1, тем лучше качество подгонки и прогноз Ŷ более точно аппроксимирует Y.

Для проверки значимости коэффициента детерминации используется F-статистика:

где k - число независимых переменных.

Связь между статистиками F и R² для случая парной регрессии (k = 1) имеет вид

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

1 2 3 4 5 6 7

Калибры, виды и назначение. Контроль параметров макрогеометрии деталей калибрами

Классификация методов обучения

Примеры решения задач. Определите рентабельность продукции по следующим данным: количество выпущенных изделий за квартал - 1 500 штук

Виды деятельности. Существуют различные классификации видов деятельности:

Показатели движения численности работников. Пример 1,2

Технология изготовления порошков

Самый сильный аргумент, почему эволюция человека не могла быть