Основные понятия статистической проверки гипотез

Статистическая гипотеза называется параметрической, если в ней сформулированы предположения относительно значений параметров функции распределения известного вида. Если в формулировке гипотезы не встречаются предположения о значениях параметров функции распреде-ления, то такая гипотеза называется непараметрической.

Нулевой гипотезой называют выдвинутую гипотезу и обозначают . Альтернативной называется гипотеза, конкурирующая с нулевой гипоте-зой в том смысле, что если отвергается нулевая гипотеза, то принимается альтернативная. Ее обозначают H_a.

Суждения относительно истинности (ложности) статистических гипотез формулируются на основании выборки объема n с помощью статистических критериев.

Статистическим критерием называется вспомогательная случайная величина К, с помощью которой принимается решение о принятии либо отклонении нулевой гипотезы.

При проверке статистических гипотез по выборочным данным всегда существует возможность принятия ложного решения. Это объясняется тем, что объем выборки конечен, и поэтому нельзя точно определить ни вид функции распределения, ни значения параметров.

Ошибкой первого рода называется ошибка отклонения верной нулевой гипотезы .

Уровнем значимости aстатистического критерия называется вероятность совершения ошибки первого рода.

Ошибкой второго рода называется ошибка принятия ложной нулевой гипотезы .

Мощностью M статистического критерия К называется вероятность несовершения ошибки второго рода, т. е. M = 1 – b.

Будем рассматривать только один вид статистических критериев – статистические критерии значимости. Это значит, что будет заранее фиксироваться вероятность совершения ошибки первого рода (уровень значимости a) и тогда нет необходимости в нахождении ошибки второго рода b. Например, если при отклонении нулевой гипотезы на уровне значимости a = 0,05 мы совершаем ошибку первого рода (считаем правильную нулевую гипотезу ложной), то в среднем ошибаемся в 5 из 100 случаев применения данного статистического критерия значимости.

3 Применение критерия Пирсона c² для проверки гипотезы
о виде закона распределения случайной величины

Гипотеза о виде закона распределения изучаемой случайной величины обычно выдвигается на основании графического изображения статисти-ческого закона распределения, сведений о механизме формирования значений этой величины, а также на основании значений оценок числовых характеристик.

В таблицах 1 и 2 приведены сведения о наиболее часто используемых при решении практических задач законах распределения дискретных и непрерывных случайных величин. В графе «Примечание» этих таблиц приведены примеры случайных величин, подчиняющихся указанным законам, либо описан механизм формирования значений этих величин.

Если изучается непрерывная случайная величина, то вид гистограммы относительных частот обычно значительно облегчает задачу выдвижения гипотезы H ₀. Например, по виду гистограммы, изображённой на рисунке 1, а, логично выдвинуть гипотезу о равномерном законе распределения исследуемой случайной величины. Вид гистограмм, приведённых на рисунках 1, б и 1, в, напоминает соответственно кривые экспоненциального и нормального законов распределения. Большое внимание при выдвижении гипотез уделяется и вычисленным значениям числовых характеристик (примеры 1, 2).

Таблица 1 – Основные сведения о наиболее часто встречающихся на практике
законах распределения дискретных случайных величин

Название закона распределения	Возможные значения	Параметры	Параметры	Числовые характеристики	Вероятности возможных значений, столбцовая диаграмма	Примечание
M [ X ]	D [ X ]	s[ X ]
Биномиальный	X = 0, 1, 2,..., n	p, n					Случайная величина X характеризует число появлений события A в серии из n независимых испытаний, в каждом из которых это событие может осуществиться с вероятностью p
Пуассона	X = 0, 1, 2,..., m,...	a					Пример: число событий простейшего потока, характеризующегося интенсивностью a, где a – число событий, произошедших в течение единицы времени
Геометрический	X = 0, 1, 2,..., m,...	p					Случайная величина X характеризует число независимых испытаний, произведённых до первого появления события A, которое в каждом из этих испытаний может произойти с вероятностью p (при этом испытание, в котором появляется событие A, не учитывается)

Таблица 2 – Основные сведения о наиболее часто встречающихся на практике
Закон распре-деления	Возможные значения	Параметры	Статистическая оценка параметров	Числовые характеристики	Вероятность попадания значений с. в. в отрезок [a; b]
M [ X ]	D [ X ]	s[ X ]	A [ X ]	Ex [ X ]
Равно-мерный		a b					–1,2
Экспо-ненци-альный (показа-тельный)		l
Нормаль-ный		m s		m	s²	s

Проверка гипотезы о предполагаемом распределении производится с помощью непараметрических критериев значимости. Одной из групп таких критериев значимости являются критерии согласия, с помощью которых проверяются нулевые гипотезы о виде функции распределения случайной величины.

Одним из наиболее широко используемых на практике критериев согласия является критерий c² Пирсона. Он может использоваться для проверки гипотез о виде закона распределения как дискретных, так и непрерывных случайных величин.

законах распределения непрерывных случайных величин
Функция плотности распределения вероятностей	Функция распределения	Примечание
		Если все возможные значения непрерывной случайной величины принадлежат отрезку [ a; b ], и все значения, попадающие на этот отрезок равновозможны, то данная случайная величина X распределена по равномерному закону. Пример: величина погрешности при округлении данных
		Примеры: – промежуток времени между моментами наступления двух последовательных событий простейшего потока; – разнообразные временные характеристики функционирования технических устройств (время безотказной работы оборудования и т. д.)
		Если случайная величина X представляет собой сумму большого числа независимых (или слабо зависимых) случайных величин, сопоставимых по уровню своего влияния на суммарный результат, то эта величина имеет распределение, близкое к нормальному Пример: реальные значения параметров изготовленного изделия

Применение критерия c² основано на сопоставлении эмпирических m_i и теоретических np_i (вычисленных в предположении справедливости проверяемой гипотезы) частот попадания значений исследуемой случайной величины в рассматриваемые частичные разряды. В качестве меры расхождения эмпирического и теоретического распределений используется статистика

, (1)

которая при независимо от вида предполагаемого распределения стремится к распределению c² с степенями свободы (здесь – число разрядов разбиения, r – число параметров теоретического распределения, оцениваемых по выборке).

Легко заметить, что при незначительных отклонениях значений m_i от np_i значение критерия c² будет близким к нулю. И наоборот, большое значение критерия c² свидетельствует о существенном отклонении значений m_i и np_i.

а)
б)		в)
	Рисунок 1 – Примеры гистограмм относительных частот

Необходимыми условиями применения критерия c² являются достаточно большой объем выборки (n ³ 30) и отсутствие в теоретическом распределении разрядов с небольшим (np_i < 5) числом наблюдений. Для обеспечения последнего условия интервалы, для которых np_i < 5, необходимо объединить с соседними. На хвостах распределения допускается значение np_i ³ 1.

4 Алгоритм применения критерия c² для проверки гипотезы
о виде закона распределения исследуемой случайной величины

1 Строится статистический закон распределения случайной величины.

2 Выбирается уровень значимости a.

3 Формулируется гипотеза о виде закона распределения исследуемой случайной величины.

4 Вычисляются теоретические вероятности p_i попадания значений случайной величины Х в рассматриваемые разряды разбиения: , (), где F (x) – гипотетическая функция распределения случайной величины X.

Замечание – Если изучается непрерывная случайная величина, то при вычислении значений необходимо изменить границы первого и последнего частичных интервалов разбиения таким образом, чтобы учесть все возможные значения, которые может принять случайная величина предполагаемого класса. В зависимости от конкретного вида проверяемой гипотезы границы частичных интервалов необходимо изменить следующим образом:

Вид закона распределения	Первый интервал разбиения	Последний интервал разбиения
Равномерный
Экспоненциальный
Нормальный

Для того чтобы избежать ошибок при вычислении вероятностей непрерывной случайной величины удобно воспользоваться расчетными таблицами 3–5.

Таблица 3 – Вычисление вероятностей равномерно распределенной случайной величины





…	…
	–––

Таблица 4 – Вычисление вероятностей показательно распределенной
случайной величины





…	…	…
		–––

Таблица 5 – Вычисление вероятностей случайной величины, имеющей
нормальное распределение



		*
		*
…	…	…	…
			–––

* , , , …, вычисляются по таблице значений функции (приложение Г).

5 Определяются значения теоретических частот np_i (i = 1, 2,…, k). При необходимости для обеспечения условия np_i ³ 5 объединяются несколько соседних разрядов разбиения.

6 Вычисляется выборочное значение критерия c² по формуле (1).

7 По таблице критических точек распределения c² определяется критическое значение , соответствующее заданному уровню значимости a и числу степеней свободы n = k – r – 1.

Если расчётное значение критерия попадает в критическую область, т. е. , то проверяемая гипотеза отвергается (при этом вероятность отклонения верной нулевой гипотезы равна a).

В случаях, когда наблюденное значение не превышает критического , считают, что выдвинутая гипотеза не противоречит опытным данным. Подчеркнем, что полученный результат свидетельствует лишь о приемлемом согласовании проверяемой гипотезы с имеющимися выборочными данными и в общем случае не является доказательством истинности этой гипотезы.

Пример 1 На основании выборочных данных, приведённых в примере 1 лабораторной работы № 1, подобрать закон распределения случайной величины X, характеризующей число отказов оборудования, произошедших в течение рабочей смены. Уровень значимости a принять равным 0,05.

Решение. После проведения первичной обработки полученных данных (см. пример 1 лабораторной работы № 1), опираясь на сведения о механизме формирования значений исследуемой случайной величины (поток отказов оборудования обычно обладает свойствами простейшего потока), учитывая вид построенной столбцовой диаграммы и значения оценок числовых характеристик , то есть , выдвигаем гипотезу о том, что изучаемая случайная величина подчиняется закону распределения Пуассона:

;

Для проверки этой гипотезы с помощью критерия c² выполним следующие действия.

Вычислим оценку параметра a распределения Пуассона: .

Вычислим вероятности наблюденных значений изучаемой случайной величины:

(i = 0, 1, 2,…, 6, …);

(i = 7);

; ;

;

= 1 – 0,9948 = 0,0052.

Заполним расчётную таблицу:

								>6
m_i
p_i	0,1353	0,27067	0,27067	0,1804	0,0902	0,036	0,012	0,0052
np_i	6,765	13,5335	13,5335	9,02	4,51	1,8	0,6	0,26

Учитывая, что теоретические частоты наблюденных значений, находящихся в трех последних столбцах таблицы, не превышают трех единиц, при вычислении значения критерия c² эти разряды объединим в один:

По таблицам квантилей распределения c² определим критическое значение , соответствующее a = 0,05, n = k – r – 1 = 6 – 1 – 1 = 4:

Поскольку выборочное значение критерия меньше критического , можно сделать вывод о том, что гипотеза не противоречит экспериментальным данным; поэтому нет оснований для отклонения проверяемой гипотезы.

Пример 2 На основании опытных данных, приведённых в примере 2 лабораторной работы № 1, подобрать закон распределения непрерывной случайной величины X, характеризующей время безотказной работы оборудования между двумя последовательными переналадками. Уровень значимости a принять равным 0,05.

Решение. Используя результаты первичной обработки выборочных данных (вид полученной гистограммы и значения оценок числовых характеристик: ), а также учитывая сведения о физическом смысле полученных значений, выдвигаем гипотезу о том, что случайная величина X распределена по экспоненциальному закону:

Проверим согласование сформулированной гипотезы с экспериментальными данными с помощью критерия c².

Вычислим оценку параметра экспоненциального закона распределения:

При вычислении вероятностей p_i = P (C_i £ X < C_i ₊₁) изменим границы первого и последнего интервалов разбиения в соответствии с замечанием, приведенным на странице 34.


		0,2828
2,987	0,7172	0,3124
8,127	0,4047	0,1763
13,267	0,2284	0,0995
18,407	0,1289	0,0562
23,547	0,0727	0,0317
28,687	0,0410	0,0179
33,827	0,0232	0,0232
		–––

Определим значения теоретических частот и занесём их в расчётную таблицу:

[0; 2,987)	[2,987; 8,127)	[8,127; 13,267)	[13,267; 18,407)	[18,407; 23,547)	[23,547; 28,687)	[28,687; 33,827)	[33,827; ¥)

0,2828	0,3124	0,1763	0,0995	0,0562	0,0317	0,0179	0,0232
14,140	15,620	8,815	4,975	2,810	1,585	0,895	1,160

Поскольку значения np_i, соответствующие четырем последним интервалам разбиения, не превышают пяти единиц, объединим эти интервалы в один и для вычисления значения критерия c² составим следующую расчётную таблицу:

[0; 2,987)	[2,987; 8,127)	[8,127; 13,267)	[13,267; 18,407)	[18,407; ¥)

0,2828	0,3124	0,1763	0,0995	0,1290
14,140	15,620	8,815	4,975	6,450

Вычислим значение критерия c²:

Критическое значение критерия, соответствующее значениям a = 0,05 и , определим с помощью приложения В: .

Поскольку , можно сделать вывод о том, что проверяемая гипотеза об экспоненциальном законе распределения изучаемой случайной величины Х не противоречит экспериментальным данным и нет основания для отклонения нулевой гипотезы.

Порядок выполнения работы

1 Получить выборку значений исследуемой случайной величины X с указанным значением уровня значимости a и записать её на диск (см. приложение А, п. 2).

2 Произвести первичную обработку полученных статистических данных.

3 Выдвинуть гипотезу о виде закона распределения изучаемой случайной величины.

4 Проверить согласование сформулированной гипотезы с имеющимися выборочными данными (ручной расчёт):

– вычислить оценки параметров предполагаемого закона распределения;

– если рассматривается дискретная случайная величина, то вычислить вероятности всех возможных значений случайной величины . Если рассматривается непрерывная случайная величина, то вычислить вероятности попадания значений случайной величины в i- й интервал , i = 1, 2, …, k;

– определить значения теоретических частот np_i, i = 1, 2, …, k;

– вычислить выборочное значение критерия c²;

– сравнить выборочное значение критерия с критическим значением и сделать вывод.

5 Проверить согласование выдвинутой гипотезы с имеющимися экспериментальными данными с помощью ППП:

– вычислить выборочное значение критерия c² (приложение А, п. 9);

– построить совместное графическое изображение статистического и предполагаемого теоретического распределений изучаемой случайной величины (см. приложение А, п. 9).

6 Сделать вывод о законе распределения вероятностей изучаемой случайной величины.

Контрольные вопросы

1 Что такое непараметрическая гипотеза?

2 Что такое нулевая, альтернативная гипотезы?

3 Из каких соображений выдвигается гипотеза о виде закона распределения случайной величины?

4 Что такое статистический критерий?

5 Какие ошибки могут быть совершены при статистической проверке гипотез?

6 Что такое уровень значимости статистического критерия?

7 Что называется статистическим критерием значимости?

8 По какой формуле вычисляется критерий c²?

9 Сформулируйте алгоритм применения критерия Пирсона.

10 Как найти критическое значение критерия ?