Гауссовское (нормальное) распределение ошибок в линейной модели наблюдений 4 страница

Каждому статистическому критерию соответствует критическое множество R значений статистики критерия, при которых гипотеза отвергается в соответствии с принятым правилом. В нашем примере таковым является множество значений указанной -статистики, превышающих по абсолютной величине значение

Итак, статистический критерий определяется заданием

a. статистической гипотезы Н ₀;

b. уровня значимости a;

c. статистики критерия;

d. критического множества R.

Можно подумать, что пункты b) и d) дублируют друг друга, поскольку в нашем примере критическое множество однозначно определяется по заданному уровню значимости . Однако, как мы увидим в дальнейшем, одному и тому же уровню значимости можно сопоставить различные критические множества, что дает возможность выбирать множество наиболее рациональным образом, в зависимости от выбора гипотезы (выбор наиболее мощного критерия).

Компьютерные пакеты программ статистического анализа данных первоочередное внимание уделяют проверке гипотезы

в рамках нормальной модели множественной линейной регрессии

с ~ i. i. d. . Эта гипотеза соответствует предположению исследователя о том, что -я объясняющая переменная не имеет существенного значения с точки зрения объяснения изменчивости значений объясняемой переменной , так что она может быть исключена из модели.

Для соответствующего критерия

a. ;

b. уровень значимости по умолчанию обычно выбирается равным ;

c. статистика критерия имеет вид

если гипотеза верна, то эта статистика имеет - распределение Стьюдента с степенями свободы,

~ ,

в связи с чем ее обычно называют t-статистикой (t-statistic) или

t-отношением (t-ratio);

d) критическое множество имеет вид

При этом, в распечатках результатов регрессионного анализа (т. е. статистического анализа модели линейной регрессии) сообщаются:

· значение оценки параметра в графе Коэффициенты (Coefficient);

· значение знаменателя t- статистики в графе Стандартная ошибка (Std. Error);

· значение отношения в графе t-статистика (t-statistic).

Кроме того, сообщается также

· вероятность того, что случайная величина, имеющая распределение Стьюдента с степенями свободы, примет значение, не меньшее по абсолютной величине, чем наблюденное значение — в графе Р-значение(Р-value или Probability).

В отношении полученного при анализе Р- значения возможны следующие варианты.

Если указываемое P- значение меньше выбранного уровня значимости , то это равносильно тому, что значение t- статистики попало в область отвержения гипотезы , т. е. В этом случае гипотеза отвергается.

Если указываемое P- значение больше выбранного уровня значимости , то это равносильно тому, что значение t- статистики не попало в область отвержения гипотезы , т. е. В этом случае гипотеза не отвергается.

Если (в пределах округления) указываемое P- значение равно выбранному уровню значимости , то в отношении гипотезы можно принять любое из двух возможных решений.

В случае, когда гипотеза отвергается (вариант 1), говорят, что параметр статистически значим (statistically significant); это соответствует признанию того, что наличие j- й объясняющей переменной в правой части модели существенно для объяснения наблюдаемой изменчивости объясняемой переменной.

Напротив, в случае, когдагипотеза не отвергается (вариант 2), говорят, что параметр статистически незначим (statistically unsignificant). В этом случае в рамках используемого статистического критерия мы не получаем убедительных аргументов против предположения о том, что . Это соответствует признанию того, что наличие j- й объясняющей переменной в правой части модели не существенно для объяснения наблюдаемой изменчивости объясняемой переменной, а следовательно, можно обойтись и без включения этой переменной в модель регрессии.

Впрочем, выводы о статистической значимости (или незначимости) того или иного параметра модели зависят от выбранного уровня значимости : решение в пользу статистической значимости параметра может измениться на противоположное при уменьшении , а решение в пользу статистической незначимости параметра может измениться на противоположное при уменьшении значения .

Пример. В уже рассматривавшемся выше примере с уровнями безработицы в США получаем в распечатке и следующую таблицу:

Переменная	Коэф-т	Ст. ошибка	t-статист.	P-знач.
1	2.294	0.410	5.589	0.0001
ZVET	0.125	0.062	2.011	0.0626

Соответственно, при выборе уровня значимости коэффициент при переменной признается статистически незначимым ( - значение больше уровня значимости). Однако, если выбрать , то - значение меньше уровня значимости, и коэффициент при переменной придется признать статистически значимым.

Пример. При исследовании зависимости спроса на куриные яйца от цены (данные были приведены ранее) получаем в распечатке и следующую таблицу:

Переменная	Коэф-т	Ст. ошибка	t-статист.	P-знач.
1	21.100	2.304	9.158	0.0000
CENA	–18.559	5.010	-3.705	0.0026

Здесь коэффициент при объясняющей переменной статистически значим даже при выборе , так что цена является существенной объясняющей переменной.

Пример. Регрессионный анализ потребления свинины на душу населения США в зависимости от оптовых цен на свинину (данные были приведены ранее) дает значения и

Переменная	Коэф-т	Ст. ошибка	t-статист.	P-знач.
1	77.484	13.921	5.566	0.0001
Цена	-24.775	29.794	-0.832	0.4219

В этом примере коэффициент при переменной Цена оказывается статистически незначимым при любом разумном выборе уровня значимости .

Замечание. Мы уже отмечали ранее возможность ложной корреляции между двумя переменными и, соответственно, возможность ложного использования одной из переменных в качестве объясняющей для описания изменчивости другой переменной. Проиллюстрируем такую ситуацию на основе рассмотренных нами методов регрессионного анализа.

Пример. В числепрочих подобных примеров мы получили модель линейной связи между мировым рекордом по прыжкам в высоту с шестом среди мужчин (, в см) и суммарным производством электроэнергии в США (, в млрд. квт-час). Мы уже указывали на высокое значение коэффициента детерминации для этой модели: . Теперь мы можем привести результаты регрессионного анализа:

Переменная	Коэф-т	Ст. ошибка	t-статист.	P-знач.
1	-2625.497	420.840	-6.234	0.0000
H	7.131	0.841	8.483	0.0000

Формально, переменная признается существенной для объяснения изменчивости переменной , так что здесь мы сталкиваемся с ложной (паразитной) регрессией переменной на переменную , обусловленной наличием выраженного (линейного) тренда обеих переменных во времени.

2.8. ПРОВЕРКА ЗНАЧИМОСТИ ПАРАМЕТРОВ
ЛИНЕЙНОЙ РЕГРЕССИИ И ПОДБОР МОДЕЛИ С ИСПОЛЬЗОВАНИЕМ F -КРИТЕРИЕВ

Приводимая ниже таблица содержит ежегодные данные о следующих показателях экономики Франции за период с 1949 по 1960 годы (млрд. франков, в ценах 1959 г.):

Y — объем импорта товаров и услуг во Францию;

X₂ _— валовой национальный продукт;

X₃ — потребление семей;

obs	Y	X2	X3	X4	obs	Y	X2	X3	X4
1949	15.9	149.3	4.2	108.1	1955	22.7	202.1	2.1	146.0
1950	16.4	161.2	4.1	114.8	1956	26.5	212.4	5.6	154.1
1951	19.0	171.5	3.1	123.2	1957	28.1	226.1	5.0	162.3
1952	19.1	175.5	3.1	126.9	1958	27.6	231.9	5.1	164.3
1953	18.8	180.8	1.1	132.1	1959	26.3	239	0.7	167.6
1954	20.4	190.7	2.2	137.7	1960	31.1	258	5.6	176.8

Выберем модель наблюдений в виде

где — значение показателя в i- м наблюдении (i- му наблюдению соответствует год, и (значения «переменной» , тождественно равной единице). Будем, как обычно, предполагать что ~ i. i. d. и что значение нам не известно. Регрессионный анализ дает следующие результаты: и

Переменная	Коэф-т	Ст. ошибка	t-статист.	P-знач.
X₁	–8.570	2.869	-2.988	0.0153
X₂	0.029	0.110	0.267	0.7953
X₃	0.177	0.166	1.067	0.3136

Обращают на себя внимание выделенные - значения. В соответствии с ними, проверка каждой отдельной гипотезы , (даже при уровне значимости ) приводит к решению о ее неотклонении. Соответственно, при реализации каждой из этих двух процедур проверки соответствующий параметр или признается статистически незначимым. И это выглядит противоречащим весьма высокому значению коэффициента детерминации.

По-существу, вопрос стоит таким образом: необходимо построить статистическую процедуру для проверки гипотезы

конкретизирующей значения не какого-то одного, а сразу двух коэффициентов.

И вообще, как проверить гипотезу

(гипотеза значимости регрессии) в рамках нормальной линейной модели множественной регрессии

c ?

Соответствующий статистический критерий основывается на так называемой F-статистике

Здесь — остаточная сумма квадратов, получаемая при оценивании полной модели (с объясняющими переменными, включая тождественную единицу), а — остаточная сумма квадратов, получаемая при оценивании модели с наложенными гипотезой ограничениями на параметры. Но последняя (редуцированная) модель имеет вид

и применение к ней метода наименьших квадратов приводит к оценке

так что

Следовательно,

В некоторых пакетах статистического анализа (например, в EXCEL) в распечатках результатов приводятся значения числителя и знаменателя этой статистики (в графе Средние квадраты — Mean Squares).

Если ~ i. i. d. , то указанная - статистика, рассматриваемая как случайная величина, имеет при гипотезе H ₀ (т. е. когда действительно q ₂= ¼= q _p= 0) стандартное распределение , называемое F-распределением Фишера с (p-1) и (n-p) степенями свободы.

Чем больше отношение , тем больше есть оснований говорить о том, что совокупность переменных действительно помогает в объяснении изменчивости объясняемой переменной .

В соответствии с этим, гипотеза

отвергается при «слишком больших» значениях F, скорее указывающих на невыполнение этой гипотезы. Соответствующее пороговое значение определяется как квантиль уровня распределения , обозначаемая символом .

Итак, гипотеза Н ₀ отвергается, если выполняется неравенство

При этом, вероятность ошибочного отвержения гипотезы равна .

Статистические пакеты, выполняющие регрессионный анализ, приводят среди прочих результатов такого анализа также значение указанной - статистики и соответствующее ему P-значение (P-value), т. е. вероятность

В частности, в рассмотренном выше примере с импортом товаров и услуг во Францию вычисленное (наблюдаемое) значение - статистики равно , в то время как критическое значение

Соответственно, - значение крайне мало — в распечатке результатов приведено значение . Значит, здесь нет практически никаких оснований принимать составную гипотезу , хотя каждая из частных гипотез

и ,

рассматриваемая сама по себе, в отрыве от второй, не отвергается.

Подобное положение встречается не так уж и редко и связано с проблемой мультиколлинеарности данных. Далее мы уделим этой проблеме определенное внимание.

Что касается рассмотренных до этого примеров, то для них результаты использования - статистики таковы.

Пример. Анализ данныхоб уровнях безработицы среди белого и цветного населения США приводит к следующим результатам:

, , - значение = , так что при выборе гипотеза не отвергается, а при выборе отвергается.

Пример. Анализ зависимости спроса на куриные яйца от цены приводит к значениям

, , - значение = , так что гипотеза отвергается, а регрессия признается статистически значимой.

Пример. Зависимость производства электроэнергии в США от мирового рекорда по прыжкам в высоту с шестом:

, , - значение = , регрессия признается статистически значимой.

Пример. Потребление свинины в США в зависимости от оптовых цен:

, , - значение = , так что гипотеза не отвергается даже при выборе .

Отметим, наконец, еще одно обстоятельство. Во всех четырех рассмотренных примерах регрессионного анализа модели простой (парной) линейной регрессии (p=2) вычисленные - значения - статистик совпадают с - значениями - статистик, используемых для проверки гипотезы . Факт такого совпадения отнюдь не случаен и может быть доказан с использованием преобразований, приведенных, например, в книге Доугерти (параграф 3.11).