Формируем t-статистику, используя вспомогательные случайные величины:
1) V=∑et^2/σ^2=(eTe)/ σ^2, где
^ E=MY=M(Xβ+ɛ)=MXβ+Mɛ= Mɛ,
Поэтому V=(eTe)/ σ^2=(ɛ/ σ)^T*M(ɛ/ σ)
Симметричную матрицу можно представить в виде
M=OT*Λ*O, где O-ортогональная матрица, Λ- диагональная матрица.
Если X-собственный вектор идемпотентной матрицы M, а λ-соответствующее собственное значение, то по определению собственного вектора и свойства идемпотентности:
λX=MX=MMX=MλX=λMX=λ2*X, или (λ-λ2)X=0, λ(1-λ)=0
Тогда статистику V можно представить следующим образом:
V=(e^t*e)/σ^2=(ε/σ)^T*O^T*Λ*O(ε/σ)=(O* ε/σ)^T*Λ*(O*ε/σ)=S^T* Λ*S,
где S – стандартный гауссовский вектор. Отсюда следует, что V представляет сумму квадратов независимых нормальных случайных величин и число слагаемых равно рангу матрицы M. Таким образом, случайная величина V имеет распределение χ2(r), где r=rank(M), т.е.V=∑ e t^2/ σ^2=(e ^T* e)/ σ^2 ̴ χ^2*(n-k)
2. Вторая вспомогательная статистика – стандартная нормальная случайная величина, обозначим ее Zβj: Zβj=(βj-β ͠j )/ σ β ͠j ̴ N(0,1), j=1,…k, где βj и β ͠j -j-е элементы векторов βи β ͠ соответственно. Тогда, по определению, t βj=Z βj/√(V/(n-k))=(βj - β ͠j )/s βj ̴ t(n-k), j=1,…k, т.е. представляют собой t-статистики с n-k степенями свободы и не зависят от неизвестных параметров σ2 и σ ͠βj . Здесь учтено, что (σ ͠βj)/ σ2= s βj ̴ /s. Задаваясь некоторым уровнем значимости α, по таблицам t-распределения можно определить критическое значение статистики tкр и, применяя стандартную процедуру, построить доверительный интервал с границами β ͠j +/- tкр s βj ̴, где оценка s2 βj является j-м элементом вектора s2 β ̴ =[s2(XTX)-1]dg. T-статистика используется для проверки статистической значимости оценок параметров множественной регрессии. При справедливости гипотезы H0: βj=0, вычисляется статистика вида: |t|=| β ͠j / s βj ͠ | ̴ t(n-k), имеющая распределение Стьюдента (n- объем выборки, k - числопараметров модели). Вычисленное значение сравнивается с критическим (выбранным из таблиц t-распределения по число степеней свободы (n-k) и уровню значимости α), и если |t|˃tкр, гипотеза H0: βj=0 отвергается и коэффициент признается статистически значимым, в случае |t|˂/=tкркоэффициент β ͠j признается статистически незначимым и регрессор Xj рекомендуется исключить из уравнения регрессии, так как он не оказывает существенного влияния на эндогенную переменную модели.
|
|
10. Коэффициент детерминации в парной регрессионной модели: определение, расчетная формула, смысл компонентов формулы, смысл коэффициента детерминации.
|
|
Линейная парная регрессионная модель используется для описания взаимосвязи двух переменных Y и X, если имеется предположения, что между ними существует линейная стохастическая зависимость: y=a+bx+ε, где а и b – параметры модели (постоянные неизвестные коэффициенты); Х- независимая переменная; Y— зависимая переменная; ε - случайная переменная (возмущение, ошибка), возникающая из-за влияния различных неучтенных факторов.
Уравнение для отдельных наблюдений зависимой переменной Y записывается в виде: yt=a+bxt+εt
где ХtYt, - набор данных (наблюдений), t = 1, 2,..., n;
Xt – экзогенная переменная модели); εt - случайная ошибка в наблюдении t.
Если отклонение зависимой переменной Yt, от ее выборочного среднего значения представить в виде суммы двух отклонений:
и выборочную дисперсию var(Y) можно представить в виде двух частей:
Часто это уравнение записывают так:
TSS = ESS + RSS,
где TSS = var(Y) – полная дисперсия (общая сумма квадратов отклонений зависимой переменной от ее выборочного значения);
ESS = Σ(Yt-Ŷt)2 – часть дисперсии, необъясненная регрессией (т.к. она содержит ошибки регрессии εt);
- часть дисперсии, объясненная регрессией (объясненная сумма квадратов отклонений).
Качество подгонки регрессионной модели к наблюденным значениям Yt оценивается при помощи статистики R2 (коэффициента детерминации).
Коэффициент детерминации определяется по формуле
R2 = 1-ESS / TSS = RSS / TSS; 0≤R2≤1
Чем ближе значение коэффициента детерминации к 1, тем лучше качество подгонки и прогноз Ŷ более точно аппроксимирует Y.
Для проверки значимости коэффициента детерминации используется F-статистика:
где k - число независимых переменных.
Связь между статистиками F и R2 для случая парной регрессии (k = 1) имеет вид