ВПР.12 Непараметрические методы проверки статистических гипотез

Непараметрические методы математической статистики - методы непосредственной оценки и проверки гипотез о теоретическом распределении вероятностей и тех или иных его общих свойствах (симметрии, независимости и т. п.) по результатам наблюдений. Особенность непараметрических методов в отличие от классических методов состоит в независимости от неизвестного теоретического распределения.

В качестве примера непараметрических можно привести критерий проверки согласованности теоретического и эмпирического распределений (критерий Колмогорова). Пусть результаты n независимых наблюдений имеют функцию распределения F(x) и пусть F_n(x) обозначает эмпирическую функцию распределения, построенную по n независимым наблюдениям (F_n - несмещённая и состоятельная оценка для F). Пусть D_n - наибольшее по абсолютной величине значение разности F_n(x) - F(x). Случайная величина √n•D_n имеет, в случае непрерывности F(x), функцию распределения K_n(λ), не зависящую от F(x) и стремящуюся при безграничном возрастании n к пределу

Отсюда при достаточно больших n для вероятности p_n,λ неравенства √n•D_n ≥ λ получается приближённое выражение p_n,λ ≈ 1 - K(λ). (*)

Функция K(λ) табулирована. Её значения для некоторых λ приведены в таблице.

Таблица значений функции K(λ)
λ	0.57	0.71	0.83	1.02	1.36	1.63
K(λ)	0.10	0.30	0.50	0.75	0.95	0.99

Равенство (*) используется для проверки гипотезы о том, что теоретическим распределением является распределение с заданной непрерывной функцией распределения F(x): сначала по результатам наблюдений находят значение величины D_n, а затем по формуле (*) вычисляют вероятность получить отклонение F_n от F, большее или равное наблюдённому. Если указанная вероятность достаточно мала, точнее равна наперёд заданному малому числу α, 0 < α < 1, то в соответствии с общими принципами проверки статистических гипотез проверяемую гипотезу отвергают. В противном случае считают, что результаты опыта не противоречат проверяемой гипотезе. Аналогично проверяется гипотеза о том, что две независимые выборки объёма n₁ и n₂ соответственно получены из одной и той же генеральной совокупности с непрерывным законом распределения, то есть что соответствующие функции распределения одинаковы (гипотеза однородности двух выборок). При этом вместо формулы (*) пользуются тем, что вероятность неравенства

имеет пределом K(λ), где D_n1,n2 есть наибольшее по абсолютной величине значение разности F_n1(x) - F_n2(x). Приведённые примеры относятся к непараметрическим методам, основанным на разностях теоретической и эмпирической или двух эмпирических распределений

Дополнительным примером непараметрических методов могут служить методы проверки гипотезы о том, что теоретическое распределение принадлежит семейству нормальных распределений. Один из этих методов - так называемый метод выпрямленной диаграммы. Этот метод основывается на следующем замечании. Если случайная величина имеет нормальное распределение с параметрами a и σ, то
Φ^-1[F(x)] = (x-a)/σ,
где Φ^-1 - функция, обратная нормальной:

Таким образом, график функции y = Φ^-1[F(x)] будет прямой линией, а график функции y = Φ^-1[F_n(x)] - ломаной линией, близкой к этой прямой (рис.). Степень близости и служит простейшим критерием для проверки гипотезы нормальности распределения F(x).

Метод выпрямленной диаграммы

Значительное место в современной математической статистике занимают непараметрические методы, в которых используются не сами эмпирические функции распределения, а некоторые функции от порядковых статистик - членов вариационного ряда. Если используются порядковые номера результатов наблюдений или ранги, то такие непараметрические критерии называют ранговыми, они, как правило, являются критериями однородности. Например, пусть X₁,..., X_n и Y₁,..., Y_m - взаимно независимые элементы двух выборок с непрерывными функциями распределений. Для проверки гипотезы о том, что соответствующие X_i и Y_j функции распределения одинаковы, можно использовать ранговый критерий, основанный на значениях функций от рангов: W = s(r₁) +... + s(r_m), где r_j - ранг случайных величин Y_j в общем вариационном ряду X_i и Y_j, а функция s(r), r = l,..., n+m, определяется заранее заданной подстановкой