Каждому статистическому критерию соответствует критическое множество R значений статистики критерия, при которых гипотеза
отвергается в соответствии с принятым правилом. В нашем примере таковым является множество значений указанной
-статистики, превышающих по абсолютной величине значение 
Итак, статистический критерий определяется заданием
a. статистической гипотезы Н 0;
b. уровня значимости a;
c. статистики критерия;
d. критического множества R.
Можно подумать, что пункты b) и d) дублируют друг друга, поскольку в нашем примере критическое множество
однозначно определяется по заданному уровню значимости
. Однако, как мы увидим в дальнейшем, одному и тому же уровню значимости можно сопоставить различные критические множества, что дает возможность выбирать множество
наиболее рациональным образом, в зависимости от выбора гипотезы
(выбор наиболее мощного критерия).
Компьютерные пакеты программ статистического анализа данных первоочередное внимание уделяют проверке гипотезы

в рамках нормальной модели множественной линейной регрессии

с
~ i. i. d.
. Эта гипотеза соответствует предположению исследователя о том, что
-я объясняющая переменная не имеет существенного значения с точки зрения объяснения изменчивости значений объясняемой переменной
, так что она может быть исключена из модели.
Для соответствующего критерия
a.
;
b. уровень значимости
по умолчанию обычно выбирается равным
;
c. статистика критерия имеет вид

если гипотеза
верна, то эта статистика имеет
- распределение Стьюдента с
степенями свободы,
~
,
в связи с чем ее обычно называют t-статистикой (t-statistic) или
t-отношением (t-ratio);
d) критическое множество имеет вид

При этом, в распечатках результатов регрессионного анализа (т. е. статистического анализа модели линейной регрессии) сообщаются:
· значение оценки
параметра
в графе Коэффициенты (Coefficient);
· значение
знаменателя t- статистики в графе Стандартная ошибка (Std. Error);
· значение отношения
в графе t-статистика (t-statistic).
Кроме того, сообщается также
· вероятность того, что случайная величина, имеющая распределение Стьюдента с
степенями свободы, примет значение, не меньшее по абсолютной величине, чем наблюденное значение
— в графе Р-значение(Р-value или Probability).
В отношении полученного при анализе Р- значения возможны следующие варианты.
Если указываемое P- значение меньше выбранного уровня значимости
, то это равносильно тому, что значение t- статистики
попало в область отвержения гипотезы
, т. е.
В этом случае гипотеза
отвергается.
Если указываемое P- значение больше выбранного уровня значимости
, то это равносильно тому, что значение t- статистики
не попало в область отвержения гипотезы
, т. е.
В этом случае гипотеза
не отвергается.
Если (в пределах округления) указываемое P- значение равно выбранному уровню значимости
, то в отношении гипотезы
можно принять любое из двух возможных решений.
В случае, когда гипотеза
отвергается (вариант 1), говорят, что параметр
статистически значим (statistically significant); это соответствует признанию того, что наличие j- й объясняющей переменной в правой части модели существенно для объяснения наблюдаемой изменчивости объясняемой переменной.
Напротив, в случае, когдагипотеза
не отвергается (вариант 2), говорят, что параметр
статистически незначим (statistically unsignificant). В этом случае в рамках используемого статистического критерия мы не получаем убедительных аргументов против предположения о том, что
. Это соответствует признанию того, что наличие j- й объясняющей переменной в правой части модели не существенно для объяснения наблюдаемой изменчивости объясняемой переменной, а следовательно, можно обойтись и без включения этой переменной в модель регрессии.
Впрочем, выводы о статистической значимости (или незначимости) того или иного параметра модели зависят от выбранного уровня значимости
: решение в пользу статистической значимости параметра может измениться на противоположное при уменьшении
, а решение в пользу статистической незначимости параметра может измениться на противоположное при уменьшении значения
.
Пример. В уже рассматривавшемся выше примере с уровнями безработицы в США получаем в распечатке
и следующую таблицу:
| Переменная | Коэф-т | Ст. ошибка | t-статист. | P-знач. |
| 1 | 2.294 | 0.410 | 5.589 | 0.0001 |
| ZVET | 0.125 | 0.062 | 2.011 | 0.0626 |
Соответственно, при выборе уровня значимости
коэффициент при переменной
признается статистически незначимым (
- значение больше уровня значимости). Однако, если выбрать
, то
- значение меньше уровня значимости, и коэффициент при переменной
придется признать статистически значимым.
Пример. При исследовании зависимости спроса на куриные яйца от цены (данные были приведены ранее) получаем в распечатке
и следующую таблицу:
| Переменная | Коэф-т | Ст. ошибка | t-статист. | P-знач. |
| 1 | 21.100 | 2.304 | 9.158 | 0.0000 |
| CENA | –18.559 | 5.010 | -3.705 | 0.0026 |
Здесь коэффициент при объясняющей переменной
статистически значим даже при выборе
, так что цена является существенной объясняющей переменной.
Пример. Регрессионный анализ потребления свинины на душу населения США в зависимости от оптовых цен на свинину (данные были приведены ранее) дает значения
и
| Переменная | Коэф-т | Ст. ошибка | t-статист. | P-знач. |
| 1 | 77.484 | 13.921 | 5.566 | 0.0001 |
| Цена | -24.775 | 29.794 | -0.832 | 0.4219 |
В этом примере коэффициент при переменной Цена оказывается статистически незначимым при любом разумном выборе уровня значимости
.
Замечание. Мы уже отмечали ранее возможность ложной корреляции между двумя переменными и, соответственно, возможность ложного использования одной из переменных в качестве объясняющей для описания изменчивости другой переменной. Проиллюстрируем такую ситуацию на основе рассмотренных нами методов регрессионного анализа.
Пример. В числепрочих подобных примеров мы получили модель линейной связи между мировым рекордом по прыжкам в высоту с шестом среди мужчин (
, в см) и суммарным производством электроэнергии в США (
, в млрд. квт-час). Мы уже указывали на высокое значение коэффициента детерминации для этой модели:
. Теперь мы можем привести результаты регрессионного анализа:
| Переменная | Коэф-т | Ст. ошибка | t-статист. | P-знач. |
| 1 | -2625.497 | 420.840 | -6.234 | 0.0000 |
| H | 7.131 | 0.841 | 8.483 | 0.0000 |
Формально, переменная
признается существенной для объяснения изменчивости переменной
, так что здесь мы сталкиваемся с ложной (паразитной) регрессией переменной
на переменную
, обусловленной наличием выраженного (линейного) тренда обеих переменных во времени.
2.8. ПРОВЕРКА ЗНАЧИМОСТИ ПАРАМЕТРОВ
ЛИНЕЙНОЙ РЕГРЕССИИ И ПОДБОР МОДЕЛИ С ИСПОЛЬЗОВАНИЕМ F -КРИТЕРИЕВ
Приводимая ниже таблица содержит ежегодные данные о следующих показателях экономики Франции за период с 1949 по 1960 годы (млрд. франков, в ценах 1959 г.):
Y — объем импорта товаров и услуг во Францию;
X2 — валовой национальный продукт;
X3 — потребление семей;
| obs | Y | X2 | X3 | X4 | obs | Y | X2 | X3 | X4 |
| 1949 | 15.9 | 149.3 | 4.2 | 108.1 | 1955 | 22.7 | 202.1 | 2.1 | 146.0 |
| 1950 | 16.4 | 161.2 | 4.1 | 114.8 | 1956 | 26.5 | 212.4 | 5.6 | 154.1 |
| 1951 | 19.0 | 171.5 | 3.1 | 123.2 | 1957 | 28.1 | 226.1 | 5.0 | 162.3 |
| 1952 | 19.1 | 175.5 | 3.1 | 126.9 | 1958 | 27.6 | 231.9 | 5.1 | 164.3 |
| 1953 | 18.8 | 180.8 | 1.1 | 132.1 | 1959 | 26.3 | 239 | 0.7 | 167.6 |
| 1954 | 20.4 | 190.7 | 2.2 | 137.7 | 1960 | 31.1 | 258 | 5.6 | 176.8 |
Выберем модель наблюдений в виде

где
— значение показателя
в i- м наблюдении (i- му наблюдению соответствует
год, и
(значения «переменной»
, тождественно равной единице). Будем, как обычно, предполагать что
~ i. i. d.
и что значение
нам не известно. Регрессионный анализ дает следующие результаты:
и
| Переменная | Коэф-т | Ст. ошибка | t-статист. | P-знач. |
| X1 | –8.570 | 2.869 | -2.988 | 0.0153 |
| X2 | 0.029 | 0.110 | 0.267 | 0.7953 |
| X3 | 0.177 | 0.166 | 1.067 | 0.3136 |
Обращают на себя внимание выделенные
- значения. В соответствии с ними, проверка каждой отдельной гипотезы
,
(даже при уровне значимости
) приводит к решению о ее неотклонении. Соответственно, при реализации каждой из этих двух процедур проверки соответствующий параметр
или
признается статистически незначимым. И это выглядит противоречащим весьма высокому значению коэффициента детерминации.
По-существу, вопрос стоит таким образом: необходимо построить статистическую процедуру для проверки гипотезы

конкретизирующей значения не какого-то одного, а сразу двух коэффициентов.
И вообще, как проверить гипотезу

(гипотеза значимости регрессии) в рамках нормальной линейной модели множественной регрессии

c
?
Соответствующий статистический критерий основывается на так называемой F-статистике

Здесь
— остаточная сумма квадратов, получаемая при оценивании полной модели (с
объясняющими переменными, включая тождественную единицу), а
— остаточная сумма квадратов, получаемая при оценивании модели с наложенными гипотезой
ограничениями на параметры. Но последняя (редуцированная) модель имеет вид

и применение к ней метода наименьших квадратов приводит к оценке

так что

Следовательно,

В некоторых пакетах статистического анализа (например, в EXCEL) в распечатках результатов приводятся значения числителя и знаменателя этой статистики (в графе Средние квадраты — Mean Squares).
Если
~ i. i. d.
, то указанная
- статистика, рассматриваемая как случайная величина, имеет при гипотезе H 0 (т. е. когда действительно q 2 = ¼= q p= 0) стандартное распределение
, называемое F-распределением Фишера с (p-1) и (n-p) степенями свободы.
Чем больше отношение
, тем больше есть оснований говорить о том, что совокупность переменных
действительно помогает в объяснении изменчивости объясняемой переменной
.
В соответствии с этим, гипотеза

отвергается при «слишком больших» значениях F, скорее указывающих на невыполнение этой гипотезы. Соответствующее пороговое значение определяется как квантиль уровня
распределения
, обозначаемая символом
.
Итак, гипотеза Н 0 отвергается, если выполняется неравенство

При этом, вероятность ошибочного отвержения гипотезы
равна
.
Статистические пакеты, выполняющие регрессионный анализ, приводят среди прочих результатов такого анализа также значение
указанной
- статистики и соответствующее ему P-значение (P-value), т. е. вероятность

В частности, в рассмотренном выше примере с импортом товаров и услуг во Францию вычисленное (наблюдаемое) значение
- статистики равно
, в то время как критическое значение

Соответственно,
- значение крайне мало — в распечатке результатов приведено значение
. Значит, здесь нет практически никаких оснований принимать составную гипотезу
, хотя каждая из частных гипотез
и
,
рассматриваемая сама по себе, в отрыве от второй, не отвергается.
Подобное положение встречается не так уж и редко и связано с проблемой мультиколлинеарности данных. Далее мы уделим этой проблеме определенное внимание.
Что касается рассмотренных до этого примеров, то для них результаты использования
- статистики таковы.
Пример. Анализ данныхоб уровнях безработицы среди белого и цветного населения США приводит к следующим результатам:
,
,
- значение =
, так что при выборе
гипотеза
не отвергается, а при выборе
отвергается.
Пример. Анализ зависимости спроса на куриные яйца от цены приводит к значениям
,
,
- значение =
, так что гипотеза
отвергается, а регрессия признается статистически значимой.
Пример. Зависимость производства электроэнергии в США от мирового рекорда по прыжкам в высоту с шестом:
,
,
- значение =
, регрессия признается статистически значимой.
Пример. Потребление свинины в США в зависимости от оптовых цен:
,
,
- значение =
, так что гипотеза
не отвергается даже при выборе
.
Отметим, наконец, еще одно обстоятельство. Во всех четырех рассмотренных примерах регрессионного анализа модели простой (парной) линейной регрессии (p=2) вычисленные
- значения
- статистик совпадают с
- значениями
- статистик, используемых для проверки гипотезы
. Факт такого совпадения отнюдь не случаен и может быть доказан с использованием преобразований, приведенных, например, в книге Доугерти (параграф 3.11).






