Алгоритм проверки значимости регрессоров во множественной регрессионной модели: выдвигаемая статистическая гипотеза, процедура ее проверки

Формируем t-статистику, используя вспомогательные случайные величины:

1) V=∑et^2/σ^2=(eTe)/ σ^2, где

^ E=MY=M(Xβ+ɛ)=MXβ+Mɛ= Mɛ,

Поэтому V=(eTe)/ σ^2=(ɛ/ σ)^T*M(ɛ/ σ)

Симметричную матрицу можно представить в виде

M=OT*Λ*O, где O-ортогональная матрица, Λ- диагональная матрица.

Если X-собственный вектор идемпотентной матрицы M, а λ-соответствующее собственное значение, то по определению собственного вектора и свойства идемпотентности:

λX=MX=MMX=MλX=λMX=λ2*X, или (λ-λ2)X=0, λ(1-λ)=0

Тогда статистику V можно представить следующим образом:

V=(e^t*e)/σ^2=(ε/σ)^T*O^T*Λ*O(ε/σ)=(O* ε/σ)^T*Λ*(O*ε/σ)=S^T* Λ*S,

где S – стандартный гауссовский вектор. Отсюда следует, что V представляет сумму квадратов независимых нормальных случайных величин и число слагаемых равно рангу матрицы M. Таким образом, случайная величина V имеет распределение χ2(r), где r=rank(M), т.е.V=∑ e t^2/ σ^2=(e ^T* e)/ σ^2 ̴ χ^2*(n-k)

2. Вторая вспомогательная статистика – стандартная нормальная случайная величина, обозначим ее Zβj: Zβj=(βj͠j )/ σ β ͠j ̴ N(0,1), j=1,…k, где βj и β ͠j -j-е элементы векторов βи β ͠ соответственно. Тогда, по определению, t βj=Z βj/√(V/(n-k))=(βj - β ͠j )/s βj ̴ t(n-k), j=1,…k, т.е. представляют собой t-статистики с n-k степенями свободы и не зависят от неизвестных параметров σ2 и σ ͠βj . Здесь учтено, что (σ ͠βj)/ σ2= s βj ̴ /s. Задаваясь некоторым уровнем значимости α, по таблицам t-распределения можно определить критическое значение статистики tкр и, применяя стандартную процедуру, построить доверительный интервал с границами β ͠j +/- tкр s βj ̴, где оценка s2 βj является j-м элементом вектора s2 β ̴ =[s2(XTX)-1]dg. T-статистика используется для проверки статистической значимости оценок параметров множественной регрессии. При справедливости гипотезы H0: βj=0, вычисляется статистика вида: |t|=| β ͠j / s βj ͠ | ̴ t(n-k), имеющая распределение Стьюдента (n- объем выборки, k - числопараметров модели). Вычисленное значение сравнивается с критическим (выбранным из таблиц t-распределения по число степеней свободы (n-k) и уровню значимости α), и если |t|˃tкр, гипотеза H0: βj=0 отвергается и коэффициент признается статистически значимым, в случае |t|˂/=tкркоэффициент β ͠j признается статистически незначимым и регрессор Xj рекомендуется исключить из уравнения регрессии, так как он не оказывает существенного влияния на эндогенную переменную модели.

 

10. Коэффициент детерминации в парной регрессионной модели: определение, расчетная формула, смысл компонентов формулы, смысл ко­эффициента детерминации.

Линейная парная регрессионная модель используется для описания взаимосвязи двух переменных Y и X, если имеется предположения, что между ними существует линейная стохастическая зависимость: y=a+bx+ε, где а и b – параметры модели (постоянные неизвестные коэффициенты); Х- независимая переменная; Y— зависимая переменная; ε - случайная переменная (возмущение, ошибка), возникающая из-за влияния различных неучтенных факторов.

Уравнение для отдельных наблюдений зависимой переменной Y записывается в виде: yt=a+bxtt

где ХtYt, - набор данных (наблюдений), t = 1, 2,..., n;

Xt – экзогенная переменная модели); εt - случайная ошибка в наблюдении t.

Если отклонение зависимой переменной Yt, от ее выборочного среднего значения представить в виде суммы двух отклонений:

и выборочную дисперсию var(Y) можно представить в виде двух частей:

Часто это уравнение записывают так:

TSS = ESS + RSS,

где TSS = var(Y) – полная дисперсия (общая сумма квадратов отклонений зависимой переменной от ее выборочного значения);

ESS = Σ(Ytt)2 – часть дисперсии, необъясненная регрессией (т.к. она содержит ошибки регрессии εt);

- часть дисперсии, объясненная регрессией (объясненная сумма квадратов отклонений).

Качество подгонки регрессионной модели к наблюденным значениям Yt оценивается при помощи статистики R2 (коэффициента детерминации).

Коэффициент детерминации определяется по формуле

R2 = 1-ESS / TSS = RSS / TSS; 0≤R2≤1

Чем ближе значение коэффициента детерминации к 1, тем лучше качество подгонки и прогноз Ŷ более точно аппроксимирует Y.

Для проверки значимости коэффициента детерминации используется F-статистика:

где k - число независимых переменных.

Связь между статистиками F и R2 для случая парной регрессии (k = 1) имеет вид

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: