Схема проверки гипотезы

Занятие № 4

ПРИМЕНЕНИЕ НЕПАРАМЕТРИЧЕСКИХ КРИТЕРИЕВ ДЛЯ АНАЛИЗА ДАННЫХ

Непараметрическими называются критерии, не включающие в формулу расчета параметры распределения, и не предполагающие знания функции распределения. Эти критерии оперируют частотами или рангами.

 

Проверка гипотез о законах распределения

Одной из задач математической статистики является нахождение закона распределения случайной величины по выборочным данным.

Критерием согласия называют критерий проверки гипотезы о предполагаемом законе распределения.

 

Критерий согласия хи-квадрат К.Пирсона для проверки гипотезы о виде закона распределения

Критерий хи-квадрат основан на сравнении наблюдаемых и теоретических (вычисленных в предположении известного закона распределения) частот.

Критерий предполагает, что результаты наблюдений сгруппированы в статистический ряд (дискретный или интервальный, содержащий k разрядов).

Схема проверки гипотезы

1. Выдвигается гипотеза H 0 о законе распределения случайной величины Х с функцией распределения F (x) - модель закона распределения.

2. По результатам наблюдений находят оценки неизвестных параметров этой модели. Определяются наблюдаемые частоты (i =1,…, k) попадания элементов выборки в полученные интервалы.

3. Определяются теоретические (ожидаемые) частоты попадания выборочных значений в промежутки, для чего:

· используя теоретическую функцию распределения F (x), определяют вероятности того, что случайная величина Х примет значения xi;

· находят значения теоретических частот путём умножения полученных вероятностей на объём выборки n: .

4. Находится выборочное значение критерия согласия К.Пирсона по формуле:

,

где: (i =1,…, k) - наблюдаемые частоты; - теоретические частоты (найдены по модели); n - объём выборки.

5. Для выбранного уровня значимости a при числе степеней свободы , где r – число параметров теоретического распределения вероятностей, оцениваемых по данным выборки, находят критическое значение . Если экспериментальное значение больше критического, т.е. > , то гипотеза H 0 отвергается; если < , гипотеза H 0 не противоречит экспериментальным данным.

Ограничения критерия хи-квадрат К.Пирсона

1) Объём выборки должен быть достаточно большим: n ³ 30.

2) Теоретическая частота для каждой ячейки не должна быть меньше 5.

 

Пример 1. В цехе с 10 станками ежедневно регистрировалось число вышедших из строя станков. Всего было проведено 200 наблюдений, результаты приведены в таблице:

Число выбывших станков                      
Число случаев                      

Проверить гипотезу о том, что число выбывших из строя станков имеет распределение Пуассона. Принять α = 0,05.

Последовательность выполнения

Закон распределения Пуассона имеет вид:

,

где: n - число испытаний; k - число появления события А в n испытаниях; l=np, p - вероятность появления события А в одном испытании.

Ввести в диапазон А2:А12 число станков, а в диапазон В2:В12 - число случаев.

В ячейке В13 рассчитать число случаев. Для этого в ячейку ввести формулу: =СУММ(В2:В12). Получим результат: 200.

В ячейке В14 рассчитать общее число отказов по формуле: =СУММПРОИЗВ(А2:А12; В2:В12). Получим результат: 360.

В ячейке В15 рассчитать значение параметра по формуле: =B13/B14.

Для расчёта теоретических частот введём следующие формулы:

В ячейку С2: =ПУАССОН(A2;$B$15;ИСТИНА)*$B$13

В ячейку С3:

=(ПУАССОН(A3;$B$15;ИСТИНА)-ПУАССОН(A2;$B$15;ИСТИНА))*$B$13

Протянуть формулу из ячейки С3 до ячейки С12. В диапазоне С2:С12 получим значения теоретических частот.

 

 

Так как частоты в ячейках C8:C12 меньше 5, то их следует объединить с ячейкой С7.

В диапазонах D2:D7 и E2:E7 получить окончательное распределение частот.

В диапазоне F2:F7 вычислить квадраты наблюдаемых частот по формуле: =D2:D7^2.

В диапазоне G2:G7 вычислить квадраты наблюдаемых частот по формуле: =F2:F7/E2.

В ячейке G9 найти сумму по формуле =СУММ(G2:G7).

Наблюдаемое значение критерия вычислить в ячейке G10 по формуле: = G9-В13. Получим результат: 12,94.

Для расчёта критического значения критерия хи-квадрат воспользуемся функцией ХИ2ОБР(вероятность; степени_свободы). В качестве вероятности зададим уровень значимости 0,05, а число степеней свободы будет равно 4 (6-1-1).

В ячейку G11 ввести формулу:

= ХИ2ОБР(0,05;4). Получим результат: 9,488.

Так как > (12,94>9,488), то гипотезу о том, что число выбывших из строя станков имеет распределение Пуассона, следует отклонить.

 

Пример 2. Был измерен вес (в кг) у 55 обезьян-павианов. По выборке был построен интервальный статистический ряд. Проверить гипотезу о нормальном распределении генеральной совокупности, приняв уровень значимости α = 0,1.

Номер интервала, k Границы интервала Наблюдаемая частота, mi
  10 - 12  
  12 - 14  
  14 - 16  
  16 - 18  
  18 - 20  
  20 - 22  
  22 - 24  

 

Последовательность выполнения

Ввести исходные данные в диапазон A2:C8. В диапазоне D2:D8 рассчитать середины интервалов по формуле =(B2+C2)/2, которую затем протянуть до D8.

В ячейки E2:E8 ввести наблюдаемые частоты.

В ячейку E9 ввести объём выборки n = 55.

В ячейке В10 рассчитать среднее выборки по формуле

=СУММПРОИЗВ(D2:D8;E2:E8)/$E$9.

В ячейке В11 рассчитать выборочную дисперсию по формуле:

=СУММПРОИЗВ(D2:D8;D2:D8;E2:E8)/$E$9-B10^2.

В ячейке В12 рассчитать выборочное стандартное отклонение: =КОРЕНЬ(В11).

Для расчёта теоретических частот в ячейку F2 формулу:

=(НОРМРАСП(C2;$B$10;$B$12;ИСТИНА)-НОРМРАСП(B2;$B$10;$B$12;ИСТИНА))*$E$9,

которую затем протянем до ячейки F8.

Так как для первого интервала левая граница принимается равной - ∞, то исправим формулу в ячейке F2:

=(НОРМРАСП(C2;$B$10;$B$12;ИСТИНА)-0)*$E$9.

Так как для последнего интервала правая граница принимается равной + ∞, то исправим формулу в ячейке F8:

=(1-НОРМРАСП(B8;$B$10;$B$12;ИСТИНА))*$E$9.

 

Объединим частоты для первого и второго интервалов, а также для шестого и седьмого интервалов.

В ячейке I11 рассчитаем значение критерия хи-квадрат: 1,11.

Найдём критическое значение критерия для α = 0,1 и числа степеней свободы 5-2-1=2 с использованием функции:

= ХИ2ОБР(0,1;2). Получим результат: 4,61.

Так как < (1,11<4,61), то гипотезу о том, что вес обезьян подчиняется нормальному закону, следует принять.

 

Ранговые критерии

Рангом наблюдения называют номер, который получит это наблюдение в упорядоченной совокупности всех данных после упорядочения их согласно определённому правилу (например, от меньшего значения к большему).

Ранжирование - процесс присвоения элементам выборки

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: