Верификация модели: проверка статистической значимости

После того, как найдены показатели регрессионной модели, возникает вопрос. Можно ли считать, что их оценки, полученные на основе выборочных данных, будут такими же и для всей генеральной совокупности? Ведь сами оценки, естественно, изменяются и при добавлении в исходную выборку новых данных, и при переходе к другой выборке. Таким образом, возникает проблема обоснованности распространения выводов, полученных на основе конкретной выборки, на всю генеральную совокупность. Эта проблема получила название проблемы оценки статистической значимости. Решение ее осуществляется с помощью аппарата проверки статистических гипотез.

Оценка значимости уравнения регрессии производится для того, чтобы узнать, пригодно ли уравнение регрессии для практического использования (для прогнозирования) или нет.

Обычно оценка статистической значимости уравнения парной регрессии проводится по двум направлениям:

а) оценивается значимость коэффициента ;

б) оценивается значимость коэффициентов регрессии.

Оценка значимости всего уравнения регрессии в целом осуществляется с помощью F -критерия Фишера.

F -критерий Фишера заключается в проверке нулевой гипотезы о статистической незначимости уравнения регрессии (т.е. гипотезы о том, что ).

Для этого выполняется сравнение фактического и критического (табличного) значений F -критерия Фишера.

Наблюдаемое значение статистики вычисляется по выборочным данным на основании формулы . При этом для линейной регрессии вместо используется значение .

По таблицам критических точек -распределения находится критическое значение статистики при заданном уровне значимости . Для линейной регрессии число степеней свободы определяется значениями и , где – число наблюдений. Уровень значимости – вероятность отвергнуть гипотезу при условии, что она верна. Обычно величина принимается равной 0,05 или 0,01.

Если , то нулевая гипотеза отвергается, что говорит о соответствии теоретического уравнения регрессии выборочным данным. Если , то признается ненадежность уравнения регрессии.

Возможна ситуация, когда некоторые из вычисленных коэффициентов линейной парной регрессии и не обладают необходимой степенью значимости. В этом случае такие коэффициенты должны быть исключены из уравнения регрессии. Поэтому проверка статистической значимости построенного уравнения парной линейной регрессии включает в себя также и проверку значимости каждого коэффициента регрессии.

При этом выдвигаются нулевые гипотезы о незначимом отличии от нуля коэффициентов регрессии а и b, т.е. , при альтернативных гипотезах , . Проверка данных гипотез осуществляется с помощью -статистики, имеющей распределение Стьюдента с числом степеней свободы . Для этого рассчитываются стандартные ошибки коэффициентов регрессии

, . (3.4)

По выборочным данным для каждого из коэффициентов вычисляются наблюдаемые значения -статистики как отношения значений коэффициентов к величине их стандартной ошибки: , , которые затем сравнивается с табличным значением -статистики . Если , то нулевые гипотезы : , отвергаются и признается, что коэффициенты регрессии не случайно отличаются от нуля, а значит, они статистически значимы. Если же , то коэффициенты регрессии статистически не значимы и природа их формирования случайна.

Если незначимым окажется коэффициент , а выбранная форма модели по некоторым причинам должна быть линейной, то проводится пересчет уравнения регрессии в предположении, что , т.е. строится линейная модель , не содержащая свободного члена. Если же незначимым окажется коэффициент b, то нужно изменить спецификацию модели с линейной формы на нелинейную.

Так как рассчитанные по выборке значения показателей регрессии являются приближенными, то для оценки того, насколько точные значения показателей могут отличаться от рассчитанных, осуществляется построение доверительных интервалов.

Доверительные интервалы для каждого коэффициента регрессии имеют вид:

, .

Они определяют пределы, в которых находятся точные значения коэффициентов регрессии с заданным уровнем значимости .

 
 


Рис. 3.6. Наклон линии регрессии в зависимости от коэффициента

Поскольку знак коэффициента регрессии b указывает (рисунок 3.6) либо на рост результативного признака y при увеличении фактора x (), либо на уменьшение результативного признака при увеличении фактора x (), либо на его независимость от независимой переменной x (), то границы доверительного интервала для коэффициента регрессии не должны иметь различные знаки. В противном случае доверительный интервал предполагает, что истинное значение коэффициента регрессии одновременно может быть положительным, отрицательным и даже нолем, а это, конечно, недопустимо.

Проверка статистической значимости линейного коэффициента корреляции осуществляется по следующей схеме:

1. Рассчитываются линейный коэффициент корреляции и его стандартная ошибка .

2. Выдвигается нулевая гипотеза о равенстве нулю коэффициента корреляции : при альтернативной гипотезе : . При проверке нулевой гипотезы используется -статистика, имеющая распределение Стьюдента с степенями свободы, где n – объем выборки. По выборке находится наблюдаемое значение статистики , где – стандартная ошибка коэффициента корреляции. Для заданного уровня значимости по таблице критических точек Стьюдента определяется критическая точка . Если , то нулевая гипотеза об отсутствии корреляционной зависимости величин отвергается, т.е. линейный коэффициент корреляции значим и статистическая зависимость между величинами существует. Если < , то нулевая гипотеза принимается.

3. Для значимого коэффициента корреляции устанавливается доверительный интервал при уровне значимости , который имеет вид:

.

Отметим, что проверка статистической значимости линейного коэффициента корреляции с помощью -статистики Стьюдента может не проводиться, если уже проведена проверка статистической значимости коэффициента детерминации с помощью F -критерия Фишера. Это обусловлено тем, что статистики критериев взаимосвязаны друг с другом.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: