Критерий согласия для проверки гипотезы о законе распределения исследуемой случайной величины.Во многих практических задачах точный закон распределения неизвестен.Поэтому выдвигается гипотеза о соответствии имеющегося эмпирического закона, построенного по наблюдениям, некоторому теоретическому.Данная гипотеза требует статистической проверки, по результатам которой будет либо подтверждена, либо опровергнута.
Пусть X – исследуемая случайная величина. Требуется проверить гипотезу H0 о том, что данная случайная величина подчиняется закону распределения F(x). Для этого необходимо произвести выборку из n независимых наблюдений и по ней построить эмпирический закон распределения F'(x). Для сравнения эмпирического и гипотетического законов используется правило, называемое критерием согласия.Одним из популярных является критерий согласия хи-квадрат К. Пирсона.
В нем вычисляется статистика хи-квадрат:
,
где N – число интервалов, по которому строился эмпирический закон распределения (число столбцов соответствующей гистограммы), i – номер интервала, pti - вероятность попадания значения случайной величины в i-й интервал для теоретического закона распределения, pei – вероятность попадания значения случайной величины в i-й интервал для эмпирического закона распределения. Она и должна подчиняться распределению хи-квадрат.
|
|
Если вычисленное значение статистики превосходит квантиль распределения хи-квадрат с k-p-1 степенями свободы для заданного уровня значимости, то гипотеза H0 отвергается.В противном случае она принимается на заданном уровне значимости.Здесь k – число наблюдений, p – число оцениваемых параметров закона распределения.
Пирсона позволяет осуществлять проверку эмпирического и теоретического (либо другого эмпирического) распределений одного признака. Данный критерий применяется, в основном, в двух случаях:
- Для сопоставления эмпирического распределения признака с теоретическим распределением (нормальным, показательным, равномерным либо каким-то иным законом);
- Для сопоставления двух эмпирических распределений одного и того же признака.
Идея метода – определение степени расхождения соответствующих частот ni и ; чем больше это расхождение, тем больше значение
Объемы выборок должны быть не меньше 50 и необходимо равенство сумм частот
Нулевая гипотеза H0={два распределения практически не различаются между собой}; альтернативная гипотеза – H1={расхождение между распределениями существенно}.
Приведем схему применения критерия для сопоставления двух эмпирических распределений:
|
|
Критерий - статистический критерий для проверки гипотезы , что наблюдаемая случайная величина подчиняется некому теоретическому закону распределения.
В зависимости от значения критерия , гипотеза может приниматься, либо отвергаться:
§ , гипотеза выполняется.
§ (попадает в левый "хвост" распределения). Следовательно, теоретические и практические значения очень близки. Если, к примеру, происходит проверка генератора случайных чисел, который сгенерировал n чисел из отрезка [0,1] и гипотеза : выборка распределена равномерно на [0,1], тогда генератор нельзя называть случайным (гипотеза случайности не выполняется), т.к. выборка распределена слишком равномерно, но гипотеза выполняется.
§ (попадает в правый "хвост" распределения) гипотеза отвергается.
Определение: пусть дана случайная величина X.
Гипотеза : с. в. X подчиняется закону распределения .
Для проверки гипотезы рассмотрим выборку, состоящую из n независимых наблюдений над с.в. X: . По выборке построим эмпирическое распределение с.в X. Сравнение эмпирического и теоретического распределения (предполагаемого в гипотезе) производится с помощью специально подобранной функции —критерия согласия. Рассмотрим критерий согласия Пирсона (критерий ):
Гипотеза : Хn порождается функцией .
Разделим [a,b] на k непересекающихся интервалов ;
Пусть - количество наблюдений в j-м интервале: ;
- вероятность попадания наблюдения в j-ый интервал при выполнении гипотезы ;
- ожидаемое число попаданий в j-ый интервал;
Статистика: - Распределение хи-квадрат с k-1 степенью свободы.
Критерий ошибается на выборках с низкочастотными (редкими) событиями.Решить эту проблему можно отбросив низкочастотные события, либо объединив их с другими событиями.Этот способ называется коррекцией Йетса (Yates' correction).
Критерий согласия Пирсона (χ2) применяют для проверки гипотезы о соответствии эмпирического распределения предполагаемому теоретическому распределению F(x) при большом объеме выборки (n ≥ 100). Критерий применим для любых видов функции F(x), даже при неизвестных значениях их параметров, что обычно имеет место при анализе результатов механических испытаний. В этом заключается его универсальность.
Использование критерия χ2 предусматривает разбиение размаха варьирования выборки на интервалы и определения числа наблюдений (частоты) nj для каждого из e интервалов. Для удобства оценок параметров распределения интервалы выбирают одинаковой длины.
Число интервалов зависит от объема выборки. Обычно принимают: при n = 100 e = 10 ÷ 15, при n = 200 e = 15 ÷ 20, при n = 400 e = 25 ÷ 30, при n = 1000 e = 35 ÷ 40.
Интервалы, содержащие менее пяти наблюдений, объединяют с соседними. Однако, если число таких интервалов составляет менее 20 % от их общего количества, допускаются интервалы с частотой nj ≥ 2.
Статистикой критерия Пирсона служит величина
, (3.91)
где pj - вероятность попадания изучаемой случайной величины в j-и интервал, вычисляемая в соответствии с гипотетическим законом распределением F(x). При вычислении вероятности pj нужно иметь в виду, что левая граница первого интервала и правая последнего должны совпадать с границами области возможных значений случайной величины.Например, при нормальном распределении первый интервал простирается до -∞, а последний - до +∞.
Нулевую гипотезу о соответствии выборочного распределения теоретическому закону F(x) проверяют путем сравнения вычисленной по формуле (3.91) величины с критическим значением χ2α, найденным по табл. VI приложения для уровня значимости α и числа степеней свободы k = e 1 - m - 1. Здесь e 1 - число интервалов после объединения; m - число параметров, оцениваемых по рассматриваемой выборке.Если выполняется неравенство
χ2 ≤ χ2α (3.92)
то нулевую гипотезу не отвергают.При несоблюдении указанного неравенства принимают альтернативную гипотезу о принадлежности выборки неизвестному распределению.
|
|
Недостатком критерия согласия Пирсона является потеря части первоначальной информации, связанная с необходимостью группировки результатов наблюдений в интервалы и объединения отдельных интервалов с малым числом наблюдений.В связи с этим рекомендуется дополнять проверку соответствия распределений по критерию χ2 другими критериями.Особенно это необходимо при сравнительно малом объеме выборки (n ≈ 100).
В таблице приведены критические значения хи-квадрат распределения с заданным числом степеней свободы.Искомое значение находится на пересечении столбца с соответствующим значением вероятности и строки с числом степеней свободы. Например, критическое значение хи-квадрат распределения с 4-мя степенями свободы для вероятности 0.25 составляет 5.38527. Это означает, что площадь под кривой плотности хи-квадрат распределения с 4-мя степенями свободы справа от значения 5.38527 равна 0.25.