Занятие № 4
ПРИМЕНЕНИЕ НЕПАРАМЕТРИЧЕСКИХ КРИТЕРИЕВ ДЛЯ АНАЛИЗА ДАННЫХ
Непараметрическими называются критерии, не включающие в формулу расчета параметры распределения, и не предполагающие знания функции распределения. Эти критерии оперируют частотами или рангами.
Проверка гипотез о законах распределения
Одной из задач математической статистики является нахождение закона распределения случайной величины по выборочным данным.
Критерием согласия называют критерий проверки гипотезы о предполагаемом законе распределения.
Критерий согласия хи-квадрат К.Пирсона для проверки гипотезы о виде закона распределения
Критерий хи-квадрат основан на сравнении наблюдаемых и теоретических (вычисленных в предположении известного закона распределения) частот.
Критерий предполагает, что результаты наблюдений сгруппированы в статистический ряд (дискретный или интервальный, содержащий k разрядов).
Схема проверки гипотезы
1. Выдвигается гипотеза H 0 о законе распределения случайной величины Х с функцией распределения F (x) - модель закона распределения.
|
|
2. По результатам наблюдений находят оценки неизвестных параметров этой модели. Определяются наблюдаемые частоты (i =1,…, k) попадания элементов выборки в полученные интервалы.
3. Определяются теоретические (ожидаемые) частоты попадания выборочных значений в промежутки, для чего:
· используя теоретическую функцию распределения F (x), определяют вероятности того, что случайная величина Х примет значения xi;
· находят значения теоретических частот путём умножения полученных вероятностей на объём выборки n: .
4. Находится выборочное значение критерия согласия К.Пирсона по формуле:
,
где: (i =1,…, k) - наблюдаемые частоты; - теоретические частоты (найдены по модели); n - объём выборки.
5. Для выбранного уровня значимости a при числе степеней свободы , где r – число параметров теоретического распределения вероятностей, оцениваемых по данным выборки, находят критическое значение . Если экспериментальное значение больше критического, т.е. > , то гипотеза H 0 отвергается; если < , гипотеза H 0 не противоречит экспериментальным данным.
Ограничения критерия хи-квадрат К.Пирсона
1) Объём выборки должен быть достаточно большим: n ³ 30.
2) Теоретическая частота для каждой ячейки не должна быть меньше 5.
Пример 1. В цехе с 10 станками ежедневно регистрировалось число вышедших из строя станков. Всего было проведено 200 наблюдений, результаты приведены в таблице:
Число выбывших станков | |||||||||||
Число случаев |
Проверить гипотезу о том, что число выбывших из строя станков имеет распределение Пуассона. Принять α = 0,05.
|
|
Последовательность выполнения
Закон распределения Пуассона имеет вид:
,
где: n - число испытаний; k - число появления события А в n испытаниях; l=np, p - вероятность появления события А в одном испытании.
Ввести в диапазон А2:А12 число станков, а в диапазон В2:В12 - число случаев.
В ячейке В13 рассчитать число случаев. Для этого в ячейку ввести формулу: =СУММ(В2:В12). Получим результат: 200.
В ячейке В14 рассчитать общее число отказов по формуле: =СУММПРОИЗВ(А2:А12; В2:В12). Получим результат: 360.
В ячейке В15 рассчитать значение параметра по формуле: =B13/B14.
Для расчёта теоретических частот введём следующие формулы:
В ячейку С2: =ПУАССОН(A2;$B$15;ИСТИНА)*$B$13
В ячейку С3:
=(ПУАССОН(A3;$B$15;ИСТИНА)-ПУАССОН(A2;$B$15;ИСТИНА))*$B$13
Протянуть формулу из ячейки С3 до ячейки С12. В диапазоне С2:С12 получим значения теоретических частот.
Так как частоты в ячейках C8:C12 меньше 5, то их следует объединить с ячейкой С7.
В диапазонах D2:D7 и E2:E7 получить окончательное распределение частот.
В диапазоне F2:F7 вычислить квадраты наблюдаемых частот по формуле: =D2:D7^2.
В диапазоне G2:G7 вычислить квадраты наблюдаемых частот по формуле: =F2:F7/E2.
В ячейке G9 найти сумму по формуле =СУММ(G2:G7).
Наблюдаемое значение критерия вычислить в ячейке G10 по формуле: = G9-В13. Получим результат: 12,94.
Для расчёта критического значения критерия хи-квадрат воспользуемся функцией ХИ2ОБР(вероятность; степени_свободы). В качестве вероятности зададим уровень значимости 0,05, а число степеней свободы будет равно 4 (6-1-1).
В ячейку G11 ввести формулу:
= ХИ2ОБР(0,05;4). Получим результат: 9,488.
Так как > (12,94>9,488), то гипотезу о том, что число выбывших из строя станков имеет распределение Пуассона, следует отклонить.
Пример 2. Был измерен вес (в кг) у 55 обезьян-павианов. По выборке был построен интервальный статистический ряд. Проверить гипотезу о нормальном распределении генеральной совокупности, приняв уровень значимости α = 0,1.
Номер интервала, k | Границы интервала | Наблюдаемая частота, mi |
10 - 12 | ||
12 - 14 | ||
14 - 16 | ||
16 - 18 | ||
18 - 20 | ||
20 - 22 | ||
22 - 24 |
Последовательность выполнения
Ввести исходные данные в диапазон A2:C8. В диапазоне D2:D8 рассчитать середины интервалов по формуле =(B2+C2)/2, которую затем протянуть до D8.
В ячейки E2:E8 ввести наблюдаемые частоты.
В ячейку E9 ввести объём выборки n = 55.
В ячейке В10 рассчитать среднее выборки по формуле
=СУММПРОИЗВ(D2:D8;E2:E8)/$E$9.
В ячейке В11 рассчитать выборочную дисперсию по формуле:
=СУММПРОИЗВ(D2:D8;D2:D8;E2:E8)/$E$9-B10^2.
В ячейке В12 рассчитать выборочное стандартное отклонение: =КОРЕНЬ(В11).
Для расчёта теоретических частот в ячейку F2 формулу:
=(НОРМРАСП(C2;$B$10;$B$12;ИСТИНА)-НОРМРАСП(B2;$B$10;$B$12;ИСТИНА))*$E$9,
которую затем протянем до ячейки F8.
Так как для первого интервала левая граница принимается равной - ∞, то исправим формулу в ячейке F2:
=(НОРМРАСП(C2;$B$10;$B$12;ИСТИНА)-0)*$E$9.
Так как для последнего интервала правая граница принимается равной + ∞, то исправим формулу в ячейке F8:
=(1-НОРМРАСП(B8;$B$10;$B$12;ИСТИНА))*$E$9.
Объединим частоты для первого и второго интервалов, а также для шестого и седьмого интервалов.
В ячейке I11 рассчитаем значение критерия хи-квадрат: 1,11.
Найдём критическое значение критерия для α = 0,1 и числа степеней свободы 5-2-1=2 с использованием функции:
= ХИ2ОБР(0,1;2). Получим результат: 4,61.
Так как < (1,11<4,61), то гипотезу о том, что вес обезьян подчиняется нормальному закону, следует принять.
Ранговые критерии
Рангом наблюдения называют номер, который получит это наблюдение в упорядоченной совокупности всех данных после упорядочения их согласно определённому правилу (например, от меньшего значения к большему).
|
|
Ранжирование - процесс присвоения элементам выборки