Параметров распределения

С помощью статистик x и S ² можно производить оценку неизвест- ных параметров предполагаемого закона распределения. Так, например, для нормального закона распределения признака Х при большом объеме

выборки его параметры можно считать равными x и S ², т.е. M (X) = x и

s2 = S 2. При малом объеме выборки x и S ² являются случайными и не совпадают с М (Х) и s². В этом случае оценку неизвестных параметров

M (X) = a

нок.

и s² осуществляют с помощью точечных статистических оце-

Статистической оценкой неизвестного параметра Q теоретического распределения называют его приближенное значение Q^*.

Статистическая оценка Q является случайной величиной. Чтобы оценка имела практическое значение, она должна быть несмещенной, со- стоятельной и эффективной.

Оценка параметра называется несмещенной, если ее математическое ожидание равно оцениваемому параметру, т.е. М (Q^*) = Q, и — смещенной, если М (Q^*) ≠ Q.

Оценка называется состоятельной, если при увеличении объема вы- борки она сходится по вероятности к оцениваемому параметру, т.е.

lim P [ | Q^* – Q | < e] = 1 (e > 0).

n ®¥

Оценка называется эффективной, если при заданном объеме выбор- ки n она имеет наименьшую дисперсию.

Известно [3], что средняя выборочная x является несмещенной и со- стоятельной оценкой генеральной средней М (Х), а также доказано, что ис- правленная дисперсия Ŝ ² является несмещенной и состоятельной оценкой генеральной дисперсии D _г, а выборочная дисперсия S ² — смещенной оцен- кой D _г.

Несмещенные оценки x, Ŝ ² и смещенную оценку S ² называют то- чечными, так как они указывают точку на числовой оси, в которой должно находиться значение оцениваемого параметра.

§ 7. Проверка статистических гипотез

При изучении той или иной генеральной совокупности нам неизвес- тен либо закон ее распределения, либо параметры распределения. В по- добных случаях в математической статистике выдвигается некоторое предположение относительно свойств генеральной совокупности. Такое предположение носит название статистической гипотезы.

Гипотезу, имеющую наиболее важное значение в проводимом ис- следовании, называют нулевой и обозначают через H ₀. При рассмотрении, например, свойств продукции разных машиностроительных предприятий нулевая гипотеза заключается в предположении о независимости характе- ристик механических свойств профилей от уровня технологии производст- ва.

Нулевую гипотезу выдвигают и затем проверяют с помощью стати- стических критериев с целью выявления оснований для ее отклонения и для принятия альтернативной гипотезы H _А. Если имеющийся статистиче-

ский материал не позволяет отвергнуть нулевую гипотезу, то ее принима- ют и используют в качестве рабочей гипотезы до тех пор, пока новые на- копленные результаты испытаний не позволят ее отклонить.

Нулевая гипотеза отвергается, если на основании выборочных испы- таний получается маловероятный результат для случая истинности выдви- нутой нулевой гипотезы. Границы между высокой и малой вероятностями служат так называемые уровни значимости. Для большинства областей на- учного исследования в качестве уровней значимости принимают уровни в 5 % и 1 %.

Значения статистики, при которых для выбранного уровня значимо- сти отвергается нулевая гипотеза, образуют так называемую критическую область критерия, а значения, при которых гипотеза не отвергается, — область допустимых значений критерия.

Таким образом, статистическая проверка гипотез заключается в по- строении критической области критерия для выбранного уровня значимо- сти. Если статистика, вычисленная на основании выборки, попадает в кри- тическую область, нулевая гипотеза отвергается, что означает несоответст- вие проверяемой гипотезы опытным данным [11].

При проверке нулевой гипотезы H ₀ могут быть допущены ошибки двух видов:

1. ошибка первого рода, когда верная гипотеза отвергается;

2. ошибка второго рода, когда альтернативная гипотеза принимает- ся.

Наличие таких ошибок объясняется тем, что проверка гипотезы осу- ществляется с помощью случайной конечной выборки, которая может ока- заться «неудачной», приводящей к ложному выводу. Однако преимущест- во статистической гипотезы состоит в том, что мы можем оценить вероят- ность, с которой принимается то или иное решение.

Вероятность совершить ошибку первого рода, т.е. забраковать вер- ную гипотезу, обозначают через a и называют уровнем значимости. Чем меньше a, тем меньше вероятность отвергнуть верную гипотезу. На прак- тике в качестве a чаще берут значение a = 0,05 = 5 %. Реже принимают a = 0,1 и a = 0,01. Если a = 5 %, то это означает, что существует вероятность ошибочно отвергнуть правильную гипотезу в одном случае из 20. Вероят- ность совершить ошибку второго рода обозначают через b. Величину 1 – b называют мощностью критерия.

Между уровнем значимости a и мощностью критерия 1 – b сущест- вует связь: с уменьшением уровня значимости a, а, значит, с уменьшением вероятности появления ошибки первого рода, падает мощность критерия. В этом случае он все меньше улавливает различие между нулевой и аль- тернативной гипотезами. Поэтому нельзя беспредельно уменьшать риск ошибки первого рода, так как суждения становятся все менее определен- ными.

В математической статистике для проверки нулевой гипотезы H ₀ ис- пользуют следующие критерии: c² (хи-квадрат) Пирсона, Романовского, Колмогорова, Ястремского, Стьюдента, Фишера и др.

Статистическая гипотеза может быть проверена на основании ре- зультатов случайной выборки. Правило, устанавливающее условия, при которых проверяемая гипотеза принимается или отвергается, называется статистическим критерием.

Обработка экспериментальных данных с помощью любого критерия осуществляется по следующей схеме.

1. Берется один или два ряда наблюдений (одна или две выборки) и по элементам этих рядов по определенным формулам (для каждого крите- рия свои формулы) вычисляют статистику.

2. По заданному уровню значимости a и числу степеней свободы k

находят по таблицам (для каждого критерия свои таблицы), приводимым в приложении любого учебника по теории вероятностей и математической статистике, граничные значения для полученной в п.1 статистики.

3. Если полученная в п. 1 статистика не выходит за пределы най- денных границ, то принимается следующее утверждение: «Нет достаточ- ных оснований отвергнуть выдвинутую гипотезу» [6]. В противном случае нулевая гипотеза отвергается.

В математической статистике наиболее употребительными являются следующие критерии: Стьюдента, Фишера (эти критерии исходят из пред- положения о близости эмпирического распределения признака Х к нор-

мальному закону распределения), c2

Пирсона, Колмогорова, Смирнова,

Романовского, Ястремского и другие (эти критерии применяют для про- верки близости эмпирического распределения признака Х к нормальному или другим распределениям признака Х, когда не используются конкрет- ные значения параметров этих распределений).

Критерий согласия Пирсона z²

Критерий согласия Пирсона c² (хи-квадрат) применяют для проверки гипотезы о соответствии эмпирического распределения предполагаемому теоретическому распределению при большом объеме выборки (n > 100) и

больших частотах (n_i > 5) вариант

xi [9].

За меру расхождения эмпирического и теоретического распределе- ний английский математик Пирсон принял величину c²:

c² = å

i =1

(ni - ni ¢)2 , (26)

n ¢

где ni

— эмпирические частоты, ni

— теоретические частоты.

Применение критерия c² к проверке гипотезы о нормальном распре- делении генеральной совокупности значений признака Х осуществляется по следующему правилу.

Правило применения критерия z²

1. По имеющейся выборке сделать предположение о нормальном законе распределения признака Х генеральной совокупности. Затем найти

оценки параметров этого закона, т.е. найти x и

S 2.

2. Вычислить теоретические частоты ni

по формуле

ni ¢= nh j(ui ), (27)

где n — объем выборки, h — шаг, S – выборочное среднее квадратическое

отклонение, u

= xi - x;

j(u) = 1 e - u 2 / 2

находится по таблице приложе-

ния 1.

i S i 2p

Для вычисления теоретических частот ni

составить табл. 12.

Т а бл и ца 12

xi	xi - x	ui = xi - x S	j (u_i)	ni ¢= nh j(ui) S

Полученные частоты ni

округлить до целых.

3. Вычислить величину c² по формуле (26) и обозначить ее через

c2. Расчет вести, пользуясь табл. 13.

Т а бл и ца 13

ni	ni	ni - ni	(ni - ni ¢)²	(ni - ni ¢)2 ni ¢

				c2 0

4. Найти число степеней свободы k (параметр распределения Пир- сона) по формуле

k = s - r = s - 3,

где s — число интервалов вариационного ряда, r — сумма числа парамет- ров теоретического закона распределения. Для нормального распределения

признака Х принято r = 3 (учитываются параметры нормального распреде-

ления a и s, а также объем выборки n).

5. Выбрать уровень значимости a.

6. По найденному числу степеней свободы k и уровню значимости

кр

a, пользуясь приложением 5, определить критическое значение 2

Если

c2 < c2

, то нет достаточных оснований отвергнуть выдвину-

0 кр

тую гипотезу о нормальном распределении признака Х. Если c2 > c2

, то

0 кр

гипотеза о нормальном распределении признака Х отвергается.

Критерий Пирсона можно применять для проверки гипотезы о том, что данная выборка взята из генеральной совокупности, распределенной по биномиальному закону, по закону Пуассона, по экспоненциальному за- кону.

Рассмотрим гипотезу

H 0 о близости эмпирического распределения

признака Х к распределению Пуассона:

H: F (x) =

l i e -l , (28)