Критерий согласия Пирсона

 

Критерий согласия для проверки гипотезы о законе распределения исследуемой случайной величины.Во многих практических задачах точный закон распределения неизвестен.Поэтому выдвигается гипотеза о соответствии имеющегося эмпирического закона, построенного по наблюдениям, некоторому теоретическому.Данная гипотеза требует статистической проверки, по результатам которой будет либо подтверждена, либо опровергнута.

Пусть X – исследуемая случайная величина. Требуется проверить гипотезу H0 о том, что данная случайная величина подчиняется закону распределения F(x). Для этого необходимо произвести выборку из n независимых наблюдений и по ней построить эмпирический закон распределения F'(x). Для сравнения эмпирического и гипотетического законов используется правило, называемое критерием согласия.Одним из популярных является критерий согласия хи-квадрат К. Пирсона.

В нем вычисляется статистика хи-квадрат:

,

где N – число интервалов, по которому строился эмпирический закон распределения (число столбцов соответствующей гистограммы), i – номер интервала, pti - вероятность попадания значения случайной величины в i-й интервал для теоретического закона распределения, pei – вероятность попадания значения случайной величины в i-й интервал для эмпирического закона распределения. Она и должна подчиняться распределению хи-квадрат.

Если вычисленное значение статистики превосходит квантиль распределения хи-квадрат с k-p-1 степенями свободы для заданного уровня значимости, то гипотеза H0 отвергается.В противном случае она принимается на заданном уровне значимости.Здесь k – число наблюдений, p – число оцениваемых параметров закона распределения.

 


Пирсона позволяет осуществлять проверку эмпирического и теоретического (либо другого эмпирического) распределений одного признака. Данный критерий применяется, в основном, в двух случаях:

- Для сопоставления эмпирического распределения признака с теоретическим распределением (нормальным, показательным, равномерным либо каким-то иным законом);

- Для сопоставления двух эмпирических распределений одного и того же признака.

Идея метода – определение степени расхождения соответствующих частот ni и ; чем больше это расхождение, тем больше значение

Объемы выборок должны быть не меньше 50 и необходимо равенство сумм частот

Нулевая гипотеза H0={два распределения практически не различаются между собой}; альтернативная гипотеза – H1={расхождение между распределениями существенно}.

Приведем схему применения критерия для сопоставления двух эмпирических распределений:

 

Критерий - статистический критерий для проверки гипотезы , что наблюдаемая случайная величина подчиняется некому теоретическому закону распределения.

 

 

В зависимости от значения критерия , гипотеза может приниматься, либо отвергаться:

§ , гипотеза выполняется.

§ (попадает в левый "хвост" распределения). Следовательно, теоретические и практические значения очень близки. Если, к примеру, происходит проверка генератора случайных чисел, который сгенерировал n чисел из отрезка [0,1] и гипотеза : выборка распределена равномерно на [0,1], тогда генератор нельзя называть случайным (гипотеза случайности не выполняется), т.к. выборка распределена слишком равномерно, но гипотеза выполняется.

§ (попадает в правый "хвост" распределения) гипотеза отвергается.

Определение: пусть дана случайная величина X.

Гипотеза : с. в. X подчиняется закону распределения .

Для проверки гипотезы рассмотрим выборку, состоящую из n независимых наблюдений над с.в. X: . По выборке построим эмпирическое распределение с.в X. Сравнение эмпирического и теоретического распределения (предполагаемого в гипотезе) производится с помощью специально подобранной функции —критерия согласия. Рассмотрим критерий согласия Пирсона (критерий ):

Гипотеза : Хn порождается функцией .

Разделим [a,b] на k непересекающихся интервалов ;

Пусть - количество наблюдений в j-м интервале: ;

- вероятность попадания наблюдения в j-ый интервал при выполнении гипотезы ;

- ожидаемое число попаданий в j-ый интервал;

Статистика: - Распределение хи-квадрат с k-1 степенью свободы.

Критерий ошибается на выборках с низкочастотными (редкими) событиями.Решить эту проблему можно отбросив низкочастотные события, либо объединив их с другими событиями.Этот способ называется коррекцией Йетса (Yates' correction).

Критерий согласия Пирсона (χ2) применяют для проверки гипотезы о соответствии эмпирического распределения предполагаемому теоретическому распределению F(x) при большом объеме выборки (n ≥ 100). Критерий применим для любых видов функции F(x), даже при неизвестных значениях их параметров, что обычно имеет место при анализе результатов механических испытаний. В этом заключается его универсальность.

Использование критерия χ2 предусматривает разбиение размаха варьирования выборки на интервалы и определения числа наблюдений (частоты) nj для каждого из e интервалов. Для удобства оценок параметров распределения интервалы выбирают одинаковой длины.

Число интервалов зависит от объема выборки. Обычно принимают: при n = 100 e = 10 ÷ 15, при n = 200 e = 15 ÷ 20, при n = 400 e = 25 ÷ 30, при n = 1000 e = 35 ÷ 40.

Интервалы, содержащие менее пяти наблюдений, объединяют с соседними. Однако, если число таких интервалов составляет менее 20 % от их общего количества, допускаются интервалы с частотой nj ≥ 2.

Статистикой критерия Пирсона служит величина
, (3.91)
где pj - вероятность попадания изучаемой случайной величины в j-и интервал, вычисляемая в соответствии с гипотетическим законом распределением F(x). При вычислении вероятности pj нужно иметь в виду, что левая граница первого интервала и правая последнего должны совпадать с границами области возможных значений случайной величины.Например, при нормальном распределении первый интервал простирается до -∞, а последний - до +∞.

Нулевую гипотезу о соответствии выборочного распределения теоретическому закону F(x) проверяют путем сравнения вычисленной по формуле (3.91) величины с критическим значением χ2α, найденным по табл. VI приложения для уровня значимости α и числа степеней свободы k = e 1 - m - 1. Здесь e 1 - число интервалов после объединения; m - число параметров, оцениваемых по рассматриваемой выборке.Если выполняется неравенство
χ2 ≤ χ2α (3.92)
то нулевую гипотезу не отвергают.При несоблюдении указанного неравенства принимают альтернативную гипотезу о принадлежности выборки неизвестному распределению.

Недостатком критерия согласия Пирсона является потеря части первоначальной информации, связанная с необходимостью группировки результатов наблюдений в интервалы и объединения отдельных интервалов с малым числом наблюдений.В связи с этим рекомендуется дополнять проверку соответствия распределений по критерию χ2 другими критериями.Особенно это необходимо при сравнительно малом объеме выборки (n ≈ 100).

В таблице приведены критические значения хи-квадрат распределения с заданным числом степеней свободы.Искомое значение находится на пересечении столбца с соответствующим значением вероятности и строки с числом степеней свободы. Например, критическое значение хи-квадрат распределения с 4-мя степенями свободы для вероятности 0.25 составляет 5.38527. Это означает, что площадь под кривой плотности хи-квадрат распределения с 4-мя степенями свободы справа от значения 5.38527 равна 0.25.







Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: