Нулевая гипотеза - 2. Зачем нам два уровня значимости

Попробуем внести некоторые уточнения в нашу схему и получше ее осмыслить.

Первое, что следует точно осознать – на основании любых вычислений подобного рода невозможно доказать справедливость нулевой гипотезы.

То, что данные попали в некий доверительный интервал, отнюдь не доказывает, что все идет хорошо, и в наши процедуры не вкралась систематическая ошибка. На основании подобных оценок можно заключить нечто гораздо меньшее и более скромное. А именно: у нас нет объективных оснований отвергнуть нулевую гипотезу. Вот так и никак не больше. Однако и такое заключение следует рассматривать как серьезное достижение, оно серьезно подкрепляет наши результаты и повышает доверие к ним со стороны всех, кто ими пользуется. Вообще, что-то строго доказать можно только по отношению к объектам, которые мы же сами и придумали (математика, программирование, шахматные и карточные партии). Тут мы господа и можем нечто строго доказать.

Но в мире реальных объектов такое в принципе невозможно. Даже самые тривиальные, хрестоматийные примеры очевидно «верных» утверждений (1. Волга впадает Каспийское море, 2. Земля вращается вокруг Солнца) при минимально строгой проверке оказываются сомнительными:

1. Ниже Казани реку, строго говоря, следовало бы называть не Волгой, а Камой, т.к. последняя в месте слияния полноводнее, Каспийское не море, а озеро, в дельте река ветвится на множество рукавов, не все они достигают Каспия, и кого из них следует считать Волгой? Так что утверждение: «Волга впадает в Каспийское море» хоть и является расхожим примером банальной истины, но вот истинность его как раз и сомнительна.

 

2. Земля не вращается (движение по кругу), а движется по эллиптической орбите, по указанному эллипсу движется не центр масс Земли, а центр масс системы Земля-Луна, а центр масс Земли испытывает колебания вокруг этого эллипса, и в фокусе этого эллипса находится не Солнце, а центр масс Солнечной системы и т.д. Опять же, утверждение «Земля вращается вокруг Солнца» банально, но строго говоря, неверно.

 

Вот нужно осознать некую принципиальную сложность объектов реального мира и понимать, что для них «доказать» строго говоря, ничего нельзя, но можно добиться более-менее адекватных представлений при определенных ограничениях и при соблюдении некоторых условных соглашений. И наше соглашение о принятии двух уровней значимости – пяти- и однопроцентного именно из этого разряда. Вполне очевидно, что нет объективных оснований предпочесть 5% уровню в 5,2% или 4,7%, тут сказывается наша любовь к круглым цифрам – и ничего более.

 

Далее, следует четко осознавать, что принимая или отвергая нулевую гипотезу, мы всегда рискуем допустить одну из двух ошибок:

- ошибка первого рода имеет место в том случае, когда мы отвергаем нулевую гипотезу, в то время как она верна

- ошибка второго рода имеет место в том случае, когда мы принимаем нулевую гипотезу, в то время как она ложна.

 

Совершенно очевидно, что чем шире доверительный интервал, тем меньше риск допустить ошибку 1-го рода, но тем выше риск допустить ошибку 2-го рода. И наоборот – чем уже доверительный интервал, тем больше риск допустить ошибку 1-го рода, и тем меньше риск допустить ошибку второго рода.

 

Отсюда вытекает возможность некоей разумной стратегии. Можно воспользоваться двумя уровнями значимости, трактуя полученные результаты следующим образом.

Если сомнительный результат удовлетворяет более высокому 5% уровню значимости (меньший доверительный интервал, с = 1,96), то нулевая гипотеза принимается.

Если сомнительный результат не удовлетворяет более низкому 1% уровню значимости (больший доверительный интервал, с = 2,58), то нулевая гипотеза отвергается.

 

Если нулевая гипотеза отвергается при высоком уровне значимости, но принимается при низком уровне значимости, ситуацию следует рассматривать как неопределенную. В идеале в такой ситуации следует провести дополнительные исследования. Если же такой выход невозможен, нужно принимать волевое решение, исходя при этом из того, какой из двух рисков (отвергнуть нулевую гипотезу, когда она верна, либо же принять ее, когда она ложна) представляется вам боле опасным с точки зрения возможных последствий.

При этом необходимо четко осознавать, что решение носит волевой характер, а значит сопряжено с рисками (финансовыми, репутационными, иными). И об этом обстоятельстве – недостаточно обоснованном характере решения – следует честно сообщить.

 

С учетом всего сказанного выше, мы можем несколько уточнить схему решения проблемы а) – проблемы принадлежности варианты к совокупности, изложенную в п. 6. А именно: пусть у нас есть некая таблица значений случайной величины х, причем известно, что эта случайная величина распределена по нормальному закону и некоторые значения хi кажутся нам выпадающими из общего ряда. Мы должны выполнить следующую последовательность операций.

 

1. Вычислим основные характеристики нашей совокупности данных:  и σ, среднее значение и стандартное отклонение

2. Для двух стандартных уровней значимости 5% и 1% выбираем коэффициенты с, отвечающие этим уровням значимости, равными 1,96 и 2,58

3. Строим соответствующие доверительные интервалы по формуле:
(  − сσ,  + сσ)

4. Если наше «подозрительное» значение попадает в меньший интервал, отвечающий 5%-му уровню значимости, то нулевая гипотеза принимается, а отклонение от среднего считается вызванным случайными причинами.

5.  Если наше «подозрительное» значение не укладывается даже в больший интервал, отвечающий 1%-му уровню значимости, то нулевая гипотеза отвергается, а отклонение от среднего считается вызванным неким неучтенным фактором – данные должны быть исключены из дальнейшего рассмотрения.

6. Если наше «подозрительное» значение попадает в больший интервал, отвечающий 1%-му уровню значимости, но не укладывается в меньший интервал, отвечающий 5%-му уровню значимости, то ситуация рассматривается как неопределенная (или плохо определенная), по крайней мере в рамках принятых нами критериев.

 

 

1.1.10 Критерий χ-квадарат.

Итак, проблема а) из пункта 6 нами разобрана, проблему б) мы пока отложим и перейдем к рассмотрению проблемы в) – проблемы соответствия эмпирического распределения теоретическому закону.

Для решения этой проблемы разработан целый спектр различных методов, но наиболее широко употребительным является метод, получивший название критерия χ-квадарат (читается: хи-квадрат). Он применяется для установления подобия данного эмпирического распределения некоему теоретическому, но мы рассмотрим проблему в конкретном случае: можно ли считать данное эмпирическое распределение нормальным или нет?

 

Нам нужно выяснить, можно ли считать[9] закон распределения некоей случайной величины (например, зарплаты выпускников МСУ спустя 3 года после окончания ВУЗа) нормальным или нет?

Решение такой задачи можно представить в виде такой последовательности шагов.

 

1. Проводим серию опытов, в результате получаем выборку значений нашей случайной величины объёмом в N значений (возможно, уже вначале мы располагаем данными о подобной выборке)

 

2. Осуществляем классификацию данных, т.е.разбиваем все имеющиеся данные на группы (классы). Группу образуют данные, принадлежащие некоторому выбранному нами интервалу значений. При этом следует проводить разбиение всего диапазона значений случайной величины таким образом, чтобы в каждом классе оказалось не менее 5-ти представителей, и чтобы общее число классов было не менее 4-х. Заметим, что не обязательно разбивать весь диапазон значений на равные интервалы. Так для задачи классификации выпускников по зарплате можно выбрать следующие интервалы:

< 1800, 1800 ÷ 2400, 2400 ÷ 3200, 3200 ÷ 4300, 4300 ÷ 5800, > 5800

Как нетрудно заметить, ширина интервала в этом примере составляет примерно треть от величины левого края интервала, значит, ширина растет в геометрической прогрессии, что достаточно характерно для экономических задач.

После проведения классификации всем элементам класса присваивается одно и то же значение, равное середине соответствующего интервала. Некоторое исключение делается для крайних интервалов, которые полубесконечны. Элементам этих приписывается значение, равное краю интервала (справа это минимум значений, а слева – максимум) ± полуширина соседнего интервала («+» выбирается для крайнего правого, а «–» для крайнего левого значения; именно такие значения используют для элементов полубесконечных интервалов при вычислении среднего и дисперсии.

 

3. Подсчитываем количество представителей в каждом из интервалов и обозначаем их ni, здесь – номер соответствующего интервала. Вычисляем основные характеристики нашей случайной величины по формулам: , здесь N – объём выборки, хi – центр i–го интервала, ni – количество представителей в интервале, а k – количество интервалов разбиения.

 

4. Теперь, зная  и σ, мы можем приступить к вычислению характеристик теоретического распределения.

Представим себе, что мы произвели ровно столько же измерений (N) для еще одной случайной величины (назовём её теоретической). Эта величина характеризуется тем, что она распределена в строгом соответствии с нормальным законом распределения и притом имеет в точности те же самые характеристики (матожидание и дисперсию), что и наш набор выборочных данных.

Сколько при таких обстоятельствах было бы представителей у такой случайной величины в каждом из наших интервалов?

Чтобы ответить на этот вопрос, найдем вероятности рi попадания теоретической случайной величины в i–й интервал – для всех интервалов, естественно крайние интервалы считаются полубесконечными. Это вполне можно сделать, т.к. мы располагаем матожиданием и σ, а также предполагаем, что случайная величина строго следует нормальному закону распределения, – как обычно, находим вероятности рi используя функцию Лапласа

 

А уже располагая величинами рi, мы можем вычислить для теоретической случайной величины и количество попаданий  в те же интервалы. Для этого нужно умножить вероятности рi на общее число замеров, которые мы произвели (на объём выборки):  и округлить полученные величины до ближайших целых значений.

 

5. Теперь мы располагаем двумя наборами частот попаданий в наши интервалы: мы имеем реальные величины[10] ni и теоретические величины . Как и следовало ожидать, между ними наблюдаются определенные различия. И мы опять оказываемся перед дилеммой: наблюдаемые различия носят случайный характер или вызваны тем, что распределение эмпирической случайной величины не является нормальным?

Вполне очевидно, что перед нами классическая ситуация нулевой гипотезы, и нулевая гипотеза состоит в том, что расхождения теоретического и эмпирического распределений носит случайный характер.

А количественно оценить различия нам  поможет критерий χ-квадарат.

 

Вычислим величину критерия по формуле:  

                                      (1.5)

 

 а также число степеней свободы f = k – 3[11]

 

6. Теперь посмотрим в таблицы критерия χ-квадарат. Они имеют два входа: число степеней свободы и уровень значимости, обычно приведены данные для двух уровней значимости: 5% и 1%.

Далее по обычной схеме: 

- если вычисленное нами значение критерия χ-квадарат для нашего числа степеней свободы f меньше того, что дает 5%-ный уровень значимости, то нулевая гипотеза принимается.

- если вычисленное нами значение критерия χ-квадарат для нашего числа степеней свободы f больше того, что дает 1%-ный уровень значимости, то нулевая гипотеза отвергается.

- если вычисленное значение критерия лежит между двумя табличными значениями, ситуация рассматривается как неопределенная.

Т.е. в первом случае (нулевая гипотеза принимается) мы вопрос о соответствии данного эмпирического распределения теоретическому распределению решаем в положительном смысле: у нас нет оснований полагать, что эмпирическое распределение отлично от теоретического, а все наблюдаемые расхождения вполне объяснимы случайными причинами.

Во втором случае у нас есть основания полагать, что расхождение между теоретическим и эмпирическим распределениями существенно, и объяснить его только случайными расхождениями нельзя.

 



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: