Общие понятия о статистических гипотезах

Одним из наиболее важных статистических приемов при принятии решений является проверка гипотез.

Статистической гипотезой называется любое предположение о виде или параметрах неизвестного закона распределения. Например, задачи на проверку гипотез могут формулироваться следующим образом:

– Инженер должен решить на основании выборочных данных, является ли генеральное среднее продолжительности службы определенного вида шин равным 22000 км.

– Производитель лекарств должен решить на основании выборки, выздоравливают ли 90 % пациентов, если они принимают новое лекарство от данной болезни.

– Агроном должен решить на основании эксперимента, дает ли данное удобрение более высокий урожай по сравнению с другими.

Эти проблемы могут быть решены, если они будут переведены на язык проверки гипотез.

Большинство статистических гипотез касается параметров распределения. Так, в первом случае инженер должен проверить гипотезу о том, что параметр q экспоненциального распределения по крайней мере 22000 км.

Во втором примере производитель лекарств должен решить, является ли параметр q биномиального распределения равным 0.9.

В третьем случае агроном должен решить, что m 1 > m 2, где m 1 и m 2 – генеральные средние двух нормально распределенных совокупностей.

В каждом случае должно предполагаться, что указанные распределения правильно описывают экспериментальные данные.

Кроме проверки гипотез о параметрах, могут проверяться гипотезы о виде распределения. Так, в первом примере инженер может решить вопрос о том, действительно ли выборка, по которой он хочет сделать вывод, является выборкой из экспоненциально распределенной генеральной совокупности.

Статистической гипотезой называется предположение о свойстве генеральной совокупности, которое можно проверить, опираясь на данные выборки. Обозначается гипотеза буквой Н (от латинского слова hypothesis). Так, может быть выдвинута гипотеза о том, что средняя в генеральной совокупности равна некоторой величине Н: μ = а, или о том, что генеральная средняя больше некоторой величины Н: μ > b.

Различают простые и сложные гипотезы. Гипотеза называется простой, если она однозначно характеризует параметр распределения случайной величины. Например, Н: μ = а. Сложная гипотеза состоит из конечного или бесконечного числа простых гипотез, при этом указывается некоторая область вероятных значений параметра. Например, Н: μ > b. Эта гипотеза состоит из множества простых гипотез:

Н:μ = с,

где с — любое число, большее b.

Гипотезы о параметрах генеральной совокупности называются параметрическими, о распределениях – непараметрическими.

Гипотеза о том, что две совокупности, сравниваемые по одному или нескольким признакам, не отличаются, называется нулевой гипотезой (или нуль-гипотезой). Она обозначается Н0. При этом предполагается, что действительное различие сравниваемых величин равно нулю, а выявленное по данным отличие от нуля носит случайный характер. Например, Н0: μ1 = μ2. И т.д.

Нулевая гипотеза отвергается тогда, когда по выборке получается результат, который при истинности выдвинутой нулевой гипотезы маловероятен. Границей невозможного или маловероятного обычно считают α = 0,05, т.е. 5%, или 0,01, 0,001. Если ориентироваться на правило «трех сигм», то вероятность ошибки α должна быть равна 0,0027. Однако для этого уровня вероятности ошибки значения критериев редко табулируются: как правило, значения критериев в статистико-математических таблицах рассчитаны для вероятностей ошибки 0,05; 0,01; 0,001.

Статистическим критерием называют определенное правило, устанавливающее условия, при которых проверяемую нулевую гипотезу следует либо отклонить, либо не отклонить. Критерий проверки статистической гипотезы определяет, противоречит ли выдвинутая гипотеза фактическим данным или нет.

Проверка статистических гипотез складывается из следующих этапов:

• формулируется в виде статистической гипотезы задача исследования;

• выбирается статистическая характеристика гипотезы;

• выбираются испытуемая и альтернативная гипотезы на основе анализа возможных ошибочных решений и их последствий;

• определяются область допустимых значений, критическая область, а также критическое значение статистического критерия (t, F, χ2) по соответствующей таблице;

• вычисляется фактическое значение статистического критерия;

• проверяется испытуемая гипотеза на основе сравнения фактического и критического значений критерия, и в зависимости от результатов проверки гипотеза либо отклоняется, либо не отклоняется.

При проверке гипотез по одному из критериев возможны два ошибочных решения:

1) неправильное отклонение нулевой гипотезы: ошибка 1-го рода;

2) неправильное принятие нулевой гипотезы: ошибка 2-го рода. В то время, как фактически нулевая гипотеза верна (1) и нулевая гипотеза не верна (2), принимают два ошибочных решения: 1) нулевая гипотеза отклоняется и принимается альтернативная гипотеза; 2) нулевая гипотеза не отклоняется. Возможные решения представлены в табл. 1.

Таблица 1 – Возможные выводы при проверке гипотез

Решение по критерию Фактически
H0 верна H0 не верна
H0 отклоняется Ошибка 1-го рода Правильное решение
H0 не отклоняется Правильное решение Ошибка 2-го рода

Если, например, установлено, что новое минеральное удобрение лучше, хотя на самом деле его действие не отличается от старого, то это ошибка 1-го рода. Если мы решили, что оба вида удобрений одинаковы, то допущена ошибка 2-го рода.

Вероятности, соответствующие неверным решениям, называются риском 1 и риском 2. Риск 1 равен вероятности ошибки α (уровню значимости), риск 2 равен вероятности ошибки β. Поскольку α всегда больше нуля, то всегда есть риск ошибки β. При заданных α и объеме выборки n значение β будет тем больше, чем меньше принятое α. Если n велико, то α и β могут быть сколь угодно малыми, т.е. решения будут более обоснованными. При малом объеме выборки и малом α возможность установить фактически существующие различия мала.

Обычно задают значение α и пытаются сделать возможно β малым. Вероятность 1 – β называется мощностью критерия: чем она больше, тем меньше вероятность ошибки второго рода.

Альтернативная гипотеза Н1 может быть сформулирована по-разному в зависимости от того, какие отклонения от гипотетической величины нас особенно беспокоят: положительные, отрицательные либо и те, и другие. Соответственно альтернативные гипотезы могут быть записаны как

От того, как формулируется альтернативная гипотеза, зависят границы критической области и области допустимых значений.

Критической областью называется область, попадание значения статистического критерия в которую приводит к отклонению Н0. Вероятность попадания значения критерия в эту область равна принятому уровню значимости.

Область допустимых значений дополняет критическую область. Если значение критерия попадает в область допустимых значений, это свидетельствует о том, что выдвинутая гипотеза Н0 не противоречит фактическим данным (Н0 не отклоняется).

Точки, разделяющие критическую область и область допустимых значений, называются критическими точками или границами критической области. В зависимости от формулировки альтернативной гипотезы критическая область может быть двухсторонняя или односторонняя (левосторонняя либо правосторонняя).

Если вычисляемое значение критерия попадает в критическую область, нулевая гипотеза отклоняется, она противоречит фактическим данным.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: