Критерии согласия

Один из вопросов, возникающих при сглаживании статистических рядов - вопрос о согласованности теоретического и статистического распределения.

Как бы хорошо ни была подобрана теоретическая кривая, между нею и статистическим распределением неизбежны некоторые расхождения. Возникает вопрос: объясняются ли эти расхождения только случайными обстоятельствами, связанными с ограниченным числом наблюдений, или они являются существенными и связаны с тем, что подобранная кривая плохо выравнивает данные статистического ряда. Для ответа на этот вопрос служат критерии согласия. Рассмотрим некоторые из этих критериев.

Критерий Пирсона (критерий «хи-квадрат»)

Пусть произведено n независимых опытов, в каждом из которых случайная величина X приняла определенное значение. По результатам этих опытов построен статистический ряд распределения, имеющий вид, приведенный в табл.2.12, где (xixi+1) - границы групп, pi* - статистическая вероятность попадания в i-ю группу, равная относительной частоте этой группы, т.е. pi*=mi/n. Общее количество групп (разрядов) равно K.

Требуется проверить, согласуются ли экспериментальные данные с гипотезой Но о том, что случайная величина X имеет закон распределения, представленный функцией F(x), или плотностью распределения f(x).

Зная теоретический закон распределения, можно найти теоретические вероятности попадания случайной величины в каждый разряд: p1, p2,...,pK. В качестве меры расхождения принимается сумма квадратов отклонений (pi*-pi), взятая с некоторыми «весами» Ci:

K

U = å Ci(pi*-pi)2.

i=1

Веса вводятся, потому что абсолютная величина отклонения pi*-pi может быть значительной, если pi велика, и наоборот. К.Пирсон доказал, что если веса принять равными величине Ci=n/pi, то при больших n закон распределения случайной величины U практически не зависит от F(x), а зависит от числа разрядов K и при увеличении n приближается к распределению c2(хи-квадрат):

(pi*-pi)2 (mi-npi)2

U = c2 = nS ¾¾¾¾¾ = S ¾¾¾¾¾, (2.34)

K pi K npi

где mi - число значений случайной величины X в i-м разряде,

т.е. частота i-ой группы,

pi*=mi/n - статистическая вероятность попадания в i-ю

группу (относительная частота).

Распределение c2 выражается через Г -функцию (интеграл Эйлера) и зависит от двух величин: r (число степеней свободы) и p (уровень вероятности).

Вероятность p в интерпретации К.Пирсона это вероятность такого события, при котором u<U, где U - наблюденное в опыте значение меры расхождения (т.е. расхождение между теоретической кривой и статистическим рядом), u - мера несовпадения теоретической кривой и распределения генеральной совокупности.

Число степеней свободы r равно числу разрядов к минус число связей между статистическим и теоретическим распределениями. Примеры таких связей:

1) Spi*=1;

K

2)совпадение статистического и теоретического среднего:

Sxipi*=mx;

K

3)совпадение статистической и теоретической дисперсии Dx*=Dx и более высоких моментов распределения.

Первая и вторая связь накладываются всегда, остальные - при числе параметров теоретического распределения, большем, чем 1.

Функция плотности c2(r,p) довольно сложно выражается аналитически, и поскольку интеграл Эйлера не берется, эта функция задается таблично, как таблица распределения c2.

По значениям c2=U и r=K-s из таблицы распределения c2 находят вероятность p. Это вероятность того, что за счет чисто случайных причин мера расхождения u в общем случае (т.е. для генеральной совокупности) будет меньше, чем полученное в данной выборке значение U.

Проверка согласия распределений производится на основе следующих условий:

n если вероятность p весьма мала (вероятность практически невозможного события), то результат опыта следует считать противоречащим гипотезе Но о том, что закон распределения величины Х есть F(x);

n если p сравнительно велика, можно признать расхождения между теоретическим и статистическим законами несущественными и отнести их за счет случайных причин, т.е. гипотеза Но не противоречит опытным данным.

Схема применения критерия c2:

1)рассчитать меру расхождения c2 по формуле (2.34);

2)определить число степеней свободы: r=K-s;

3)по таблице распределения c2 найти вероятность p.

Если эта вероятность велика, то гипотеза принимается.

На практике:

n если p <0,1, следует проверить эксперимент, по возможности повторить его, и если расхождения снова будут существенны - подыскать более подходящий для этих данных закон;

n если p> 0,1, гипотеза не противоречит опытным данным (однако это обстоятельство не является безусловным доказательством гипотезы);

n очень большая величина порядка p (порядка 0,99) говорит о подозрительности исходных данных, т.к. маловероятно, чтобы за счет случайных причин при большом числе опытов расхождения с вероятностью 0,99 были бы менее наблюденных. Причиной может быть неправильная регистрация и обработка данных, когда некоторые результаты произвольно отбрасываются или изменяются.

Критерий Пирсона хорошо работает при n>200 и mi не менее 5-10 наблюдений в группе.

Если mi=1¸2, то следует объединить разряды и пересчитать статистический вряд распределения.

Пример 2.15. Произведено обследование величины валютной выручки F (тыс. $) в 500 рейсах однотипных судов на линии. Результаты сведены в статистический ряд (табл.2.16). Проверить согласованность этого распределения с нормальным.

Таблица 2.16

Интервал DFi, тыс.$ 160-165 165-170 170-175 175-180 180-185 185-190 190-195 195-200
Частота, mi                
npi 11,6 37,35       71,75 26,7 6,45

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: