Предположим, что вид распределения генеральной совокупности известен. Тогда задача статистики сводится к оцениванию параметров этого распределения по результатам выборочных данных.
Точечной оценкой неизвестного параметра θ называется приближенное значение этого параметра, найденное по выборочным данным:
Точечная оценка должна быть, по возможности, состоятельной, несмещенной и эффективной.
Состоятельной называется оценка, которая при увеличении объема выборки сводится по вероятности к оцениваемому параметру. Можно показать, что оценка является состоятельной, если n→∞ выполняются соотношения.
Оценка называется несмещенной, если ее математическое ожидание совпадает с оцениваемым параметром.
Эффективной называется оценка, имеющая при заданном объеме выборки минимальную дисперсию. Несмещенная оценка является тем более точной, чем меньшую дисперсию она имеет.
Предположим, что случайная величина X на генеральной совокупности имеет математическое ожидание m и дисперсию σ². В качестве точечной оценки математического ожидания можно принять выборочное среднее:
Эта оценка является состоятельной и несмещенной.
Если же выборка взята из нормально распределенной генеральной совокупности, то оценка является эффективной.
При обосновании состоятельности оценки мы получили формулу для дисперсии выборочного среднего:
В качестве точечной оценки дисперсии σ² генеральной совокупности принимается специальная характеристика, называемая несмещенной дисперсией:
Иногда в статистических расчетах важно не только найти оценку параметра, но и охарактеризовать ее точность. Для этого вводится понятие об интервальной оценке параметра.
Доверительным интервалом параметра θ называется интервал (θ1,θ2), содержащий истинное значение θ заданной вероятностью p = 1 – α:
P(θ1 < θ < θ2) = 1-α
Число p называется доверительной вероятностью, или надежностью оценки, и принимается близким к единице: 0,9; 0,95; 0,99. Значение α называется уровнем значимости.
Используя последние формулы, для доверительного интервала математического ожидания нормально распределенной генеральной совокупности при известной дисперсии σ² можно получить следующее соотношение:
где u1-α/2 – квантиль нормального распределения порядка 1-α/2, определяемая по таблице.
При неизвестной дисперсии генеральной совокупности формула для доверительного интервала математического ожидания нормально распределенной генеральной совокупности примет вид:
где t1-α/2(n – 1) – квантиль распределения Стьюдента с (n – 1) степенью свободы порядка 1- α/2, определяемая по таблице;
s – квадратный корень из несмещенной дисперсии.
По аналогии может быть получена формула для расчета доверительного интервала дисперсии нормально распределенной генеральной совокупности при неизвестном математическом ожидании:
где χ²α/2 (n – 1) – квантиль распределения хи – квадрат с (n - 1) степенью свободы порядка α/2, определяемая по таблице.
Пример
Найти 95%-й интервал для математического ожидания твердости сплава, если по результатам измерений получены следующие значения: 14,2; 14,8; 14,0; 14,7; 13,9; 14,8; 15,1; 15,0; 14,5.
Объем выборки n = 9. Выборочное среднее:
x = (14,2 + 14,8 + … + 14,5) / 9 = 14,56;
выборочная дисперсия:
D*x = (14,2² + 14,8² + … + 14,5²) / 9 – 14, 56² = 0,17;
несмещенная дисперсия:
s² = 9*0,17 / 8 = 0,19; s = 0,43;
доверительная вероятность: p = 0,95;
квантиль распределения Стьюдента: t0,975(8) = 2, 306
Тогда: 14,56 – 0,33 < m < 14,56 + 0,33.
С вероятностью 0,95 математическое ожидание твердости сплава лежит в пределах от 14,23 до 14,89.
§7 Критерии значимости
§7.1 Проверка статистических гипотез
Критерии значимости предназначены для принятия решения при проверке статистических гипотез. Статистическими называются гипотезы о виде неизвестного распределения или о параметрах распределения, если его вид известен.
Например, может быть проверена гипотеза о том, что твердость сплава в рассмотренном выше примере имеет нормальное распределение; или гипотеза о том, что два станка работают с одинаковой точностью.
Проверяемая гипотеза называется нулевой и обозначается Н0. Альтернативная гипотеза Н1 – это гипотеза, противоречащая нулевой.
При проверке гипотез возможны два типа ошибок. Ошибка, состоящая в том, что будет отвергнута правильная нулевая гипотеза, называется ошибкой первого рода; вероятность такой ошибки обозначается α и называется уровнем значимости: например, α =0,05 означает, что в пяти случаях из ста мы рискуем отвергнуть правильную гипотезу. Ошибка второго рода состоит в том, что будет принята неправильная нулевая гипотеза; вероятность такой ошибки обозначается β. Вероятность отклонения от правильной нулевой гипотезы 1- β называется мощностью критерия.
Решение – принять или отвергнуть нулевую гипотезу – принимается на основе определенного критерия. При этом выбирается некоторая функция элементов выборки или статистика критерия Z = Z (x1, x2, …, xn), распределение которой известно. Множество значений статистики Z, при которых принимается решение отклонить гипотезу Н0, называется критической областью. Положение критической области определяется видом альтернативной гипотезы и заданным уровнем значимости. Множество значений статистики Z, при которых нулевая гипотеза принимается, называется областью принятия решения.
Пусть, например, проверяется гипотеза о том, что параметр θ распределения генеральной совокупности равен некоторому конкретному значению θ0, т.е. нулевая гипотеза имеет вид Н0: θ = θ0. При этом возможны различные варианты альтернативных гипотез. Если, например, Н1: θ < θ0, то критическая область расположена в левом «хвосте» соответствующего распределения, причем положение границы критической области определяется квантилью zα. Если Н1: θ > θ0, то критическая область – в правом «хвосте»; ее граница определяется квантилью zα-1. В двух рассмотренных случаях имеем одностороннюю критическую область. Если же альтернативная гипотеза имеет вид Н1: θ ≠ θ0, критическая область – двухсторонняя; ее границы определяются соответственно квантилями zα/2 и z1-α/2.
В общем случае алгоритм проверки гипотезы с помощью критерия значимости таков:
- формулируется нулевая и альтернативная гипотезы,
- задается уровень значимости,
- выбирается статистика критерия для проверки сформулированной нулевой гипотезы,
- определяется выборочное распределение этой статистики,
- определяется положение критической области,
- вычисляется выборочное значение статистики критерия,
- принимается статистическое решение: если выборочное значение статистики критерия оказалось в области принятия решения, нулевая гипотеза принимается; в противном случае нулевая гипотеза отклоняется, как несогласующаяся с результатами наблюдений.