С помощью статистик x и S 2 можно производить оценку неизвест- ных параметров предполагаемого закона распределения. Так, например, для нормального закона распределения признака Х при большом объеме
выборки его параметры можно считать равными x и S 2, т.е. M (X) = x и
s2 = S 2. При малом объеме выборки x и S 2 являются случайными и не совпадают с М (Х) и s2. В этом случае оценку неизвестных параметров
M (X) = a
нок.
и s2 осуществляют с помощью точечных статистических оце-
Статистической оценкой неизвестного параметра Q теоретического распределения называют его приближенное значение Q*.
Статистическая оценка Q является случайной величиной. Чтобы оценка имела практическое значение, она должна быть несмещенной, со- стоятельной и эффективной.
Оценка параметра называется несмещенной, если ее математическое ожидание равно оцениваемому параметру, т.е. М (Q*) = Q, и — смещенной, если М (Q*) ≠ Q.
Оценка называется состоятельной, если при увеличении объема вы- борки она сходится по вероятности к оцениваемому параметру, т.е.
|
|
lim P [ | Q* – Q | < e] = 1 (e > 0).
n ®¥
Оценка называется эффективной, если при заданном объеме выбор- ки n она имеет наименьшую дисперсию.
Известно [3], что средняя выборочная x является несмещенной и со- стоятельной оценкой генеральной средней М (Х), а также доказано, что ис- правленная дисперсия Ŝ 2 является несмещенной и состоятельной оценкой генеральной дисперсии D г, а выборочная дисперсия S 2 — смещенной оцен- кой D г.
Несмещенные оценки x, Ŝ 2 и смещенную оценку S 2 называют то- чечными, так как они указывают точку на числовой оси, в которой должно находиться значение оцениваемого параметра.
§ 7. Проверка статистических гипотез
При изучении той или иной генеральной совокупности нам неизвес- тен либо закон ее распределения, либо параметры распределения. В по- добных случаях в математической статистике выдвигается некоторое предположение относительно свойств генеральной совокупности. Такое предположение носит название статистической гипотезы.
Гипотезу, имеющую наиболее важное значение в проводимом ис- следовании, называют нулевой и обозначают через H 0. При рассмотрении, например, свойств продукции разных машиностроительных предприятий нулевая гипотеза заключается в предположении о независимости характе- ристик механических свойств профилей от уровня технологии производст- ва.
Нулевую гипотезу выдвигают и затем проверяют с помощью стати- стических критериев с целью выявления оснований для ее отклонения и для принятия альтернативной гипотезы H А. Если имеющийся статистиче-
|
|
ский материал не позволяет отвергнуть нулевую гипотезу, то ее принима- ют и используют в качестве рабочей гипотезы до тех пор, пока новые на- копленные результаты испытаний не позволят ее отклонить.
Нулевая гипотеза отвергается, если на основании выборочных испы- таний получается маловероятный результат для случая истинности выдви- нутой нулевой гипотезы. Границы между высокой и малой вероятностями служат так называемые уровни значимости. Для большинства областей на- учного исследования в качестве уровней значимости принимают уровни в 5 % и 1 %.
Значения статистики, при которых для выбранного уровня значимо- сти отвергается нулевая гипотеза, образуют так называемую критическую область критерия, а значения, при которых гипотеза не отвергается, — область допустимых значений критерия.
Таким образом, статистическая проверка гипотез заключается в по- строении критической области критерия для выбранного уровня значимо- сти. Если статистика, вычисленная на основании выборки, попадает в кри- тическую область, нулевая гипотеза отвергается, что означает несоответст- вие проверяемой гипотезы опытным данным [11].
При проверке нулевой гипотезы H 0 могут быть допущены ошибки двух видов:
1. ошибка первого рода, когда верная гипотеза отвергается;
2. ошибка второго рода, когда альтернативная гипотеза принимает- ся.
Наличие таких ошибок объясняется тем, что проверка гипотезы осу- ществляется с помощью случайной конечной выборки, которая может ока- заться «неудачной», приводящей к ложному выводу. Однако преимущест- во статистической гипотезы состоит в том, что мы можем оценить вероят- ность, с которой принимается то или иное решение.
Вероятность совершить ошибку первого рода, т.е. забраковать вер- ную гипотезу, обозначают через a и называют уровнем значимости. Чем меньше a, тем меньше вероятность отвергнуть верную гипотезу. На прак- тике в качестве a чаще берут значение a = 0,05 = 5 %. Реже принимают a = 0,1 и a = 0,01. Если a = 5 %, то это означает, что существует вероятность ошибочно отвергнуть правильную гипотезу в одном случае из 20. Вероят- ность совершить ошибку второго рода обозначают через b. Величину 1 – b называют мощностью критерия.
Между уровнем значимости a и мощностью критерия 1 – b сущест- вует связь: с уменьшением уровня значимости a, а, значит, с уменьшением вероятности появления ошибки первого рода, падает мощность критерия. В этом случае он все меньше улавливает различие между нулевой и аль- тернативной гипотезами. Поэтому нельзя беспредельно уменьшать риск ошибки первого рода, так как суждения становятся все менее определен- ными.
В математической статистике для проверки нулевой гипотезы H 0 ис- пользуют следующие критерии: c2 (хи-квадрат) Пирсона, Романовского, Колмогорова, Ястремского, Стьюдента, Фишера и др.
Статистическая гипотеза может быть проверена на основании ре- зультатов случайной выборки. Правило, устанавливающее условия, при которых проверяемая гипотеза принимается или отвергается, называется статистическим критерием.
Обработка экспериментальных данных с помощью любого критерия осуществляется по следующей схеме.
1. Берется один или два ряда наблюдений (одна или две выборки) и по элементам этих рядов по определенным формулам (для каждого крите- рия свои формулы) вычисляют статистику.
2. По заданному уровню значимости a и числу степеней свободы k
находят по таблицам (для каждого критерия свои таблицы), приводимым в приложении любого учебника по теории вероятностей и математической статистике, граничные значения для полученной в п.1 статистики.
3. Если полученная в п. 1 статистика не выходит за пределы най- денных границ, то принимается следующее утверждение: «Нет достаточ- ных оснований отвергнуть выдвинутую гипотезу» [6]. В противном случае нулевая гипотеза отвергается.
|
|
В математической статистике наиболее употребительными являются следующие критерии: Стьюдента, Фишера (эти критерии исходят из пред- положения о близости эмпирического распределения признака Х к нор-
мальному закону распределения), c2
Пирсона, Колмогорова, Смирнова,
Романовского, Ястремского и другие (эти критерии применяют для про- верки близости эмпирического распределения признака Х к нормальному или другим распределениям признака Х, когда не используются конкрет- ные значения параметров этих распределений).
Критерий согласия Пирсона z2
Критерий согласия Пирсона c2 (хи-квадрат) применяют для проверки гипотезы о соответствии эмпирического распределения предполагаемому теоретическому распределению при большом объеме выборки (n > 100) и
больших частотах (ni > 5) вариант
xi [9].
За меру расхождения эмпирического и теоретического распределе- ний английский математик Пирсон принял величину c2:
l
c2 = å
i =1
(ni - ni ¢)2 , (26)
|
где ni
— эмпирические частоты, ni
— теоретические частоты.
Применение критерия c2 к проверке гипотезы о нормальном распре- делении генеральной совокупности значений признака Х осуществляется по следующему правилу.
Правило применения критерия z2
1. По имеющейся выборке сделать предположение о нормальном законе распределения признака Х генеральной совокупности. Затем найти
оценки параметров этого закона, т.е. найти x и
S 2.
2. Вычислить теоретические частоты ni
по формуле
|
где n — объем выборки, h — шаг, S – выборочное среднее квадратическое
отклонение, u
= xi - x;
j(u) = 1 e - u 2 / 2
находится по таблице приложе-
ния 1.
i S i 2p
Для вычисления теоретических частот ni
составить табл. 12.
Т а бл и ца 12
xi | xi - x | ui = xi - x S | j (ui) | ni ¢= nh j(ui) S |
|
|
Полученные частоты ni
округлить до целых.
3. Вычислить величину c2 по формуле (26) и обозначить ее через
|
Т а бл и ца 13
ni | ni | ni - ni | (ni - ni ¢)2 | (ni - ni ¢)2 ni ¢ |
c2 0 |
4. Найти число степеней свободы k (параметр распределения Пир- сона) по формуле
k = s - r = s - 3,
где s — число интервалов вариационного ряда, r — сумма числа парамет- ров теоретического закона распределения. Для нормального распределения
признака Х принято r = 3 (учитываются параметры нормального распреде-
ления a и s, а также объем выборки n).
5. Выбрать уровень значимости a.
6. По найденному числу степеней свободы k и уровню значимости
|
|
|
Если
c2 < c2
, то нет достаточных оснований отвергнуть выдвину-
0 кр
тую гипотезу о нормальном распределении признака Х. Если c2 > c2
, то
0 кр
гипотеза о нормальном распределении признака Х отвергается.
Критерий Пирсона можно применять для проверки гипотезы о том, что данная выборка взята из генеральной совокупности, распределенной по биномиальному закону, по закону Пуассона, по экспоненциальному за- кону.
Рассмотрим гипотезу
H 0 о близости эмпирического распределения
признака Х к распределению Пуассона:
H: F (x) =
m
l i e -l , (28)
0 å i!
0
где l — параметр распределения Пуассона. Для применения критерия c2
надо рассчитать теоретические частоты ni, а также получить по значениям
выборки оценку параметра l. Методом максимального правдоподобия до- казывается, что выборочная средняя x является пригодной оценкой для l,
т.е.
l» x. Теоретические частоты ni
вычисляются по формуле:
ni = np (X = xi). (29)
Вероятности
P (X = xi)
вычисляются по формуле:
P (X
= x) = xi e - x. (30)
i i!
Так как при расчете теоретических частот ni используется один па-
раметр l, то число степеней свободы k находят по формуле:
k = s - 2. (31)
Затем вычисляют величину c2 по формуле (26), обозначают ее через
|
свободы k по приложению 5 находят c2. Если c2 < c2
, то нет достаточ-
кр 0 кр
ных оснований отвергнуть выдвинутую гипотезу
H 0. Если
c2 > c2
, то
гипотеза H 0 отвергается.
0 кр