Оценка близости эмпирического и теоретического распределений

 

При обработке опытных данных приходится решать вопрос о подборе такой теоретической кривой распределения, которая отражала бы наиболее существенные черты дано статистического ряда, но не случайных отклонений, связанных с недостаточным объёмом данных. Задача выравнивания (сглаживания) статистического ряда состоит в подборе теоретической плавной кривой распределения, которая наилучшим образом соответствует некоторому заданному критерию. Например, если исследуемая случайная величина Х есть ошибка измерения, то обычно принимают нормальный закон её распределения; тогда задача выравнивания сводится к отысканию параметров а и s.

Пример 1.13. На рис. 1.8 приведена гистограмма ежесуточного выпуска поковок, вид которой показывает возможность её описания с помощью нормального закона. Требуется построить график функции распределения и кривую плотности вероятности.

Решение.

Нормальный закон распределения характеризуется двумя параметрами: математическим ожиданием а и средним квадратичным отклонением s. Выберем эти параметры так, чтобы выполнялись равенства

Подставляя численные значения, получим

Тогда выражение для нормального закона примет следующий вид:

Задавая значения u = m/h на границах интервалов по таблицам (Приложение Б) находим значения функции j(u) и вычисляем значения f(m/h):

m/h         3,08        
F 0,029 0,100 0,207 0,272 0,273 0,224 0,117 0,037 0,007
F 0,017 0,078 0,230 0,479 0,500 0,736 0,905 0,978 0,996

 

Значения функции распределения F определяли через функцию Лапласа с помощью таблиц (Приложение Б), Из рисунков 1.8 и 19 видно, что теоретические кривые достаточно хорошо соответствуют опытным данным.

Пусть данное статистическое распределение сглажено с помощью некоторой теоретической кривой f(х). Возникает вопрос о соответствии теоретического и эмпирического распределений. Одним из наиболее часто применяемых способов оценки близости двух распределений является критерий c 2 (критерий Пирсона). В основе этого способа лежит то, что сумма квадратов разностей между теоретическими pi и эмпирическими ni/n значениями плотности распределения, является величиной, распределенной по c 2-распределению с f степенями свободы:

где k – число интервалов, на которые разбит диапазон изменения случайной величины; n – объём выборки.

Число степеней свободы f распределения c 2 равно f = k – l, где l - число связей, наложенное на частоты ni/n. Одной из связей всегда является очевидное требование – сумма частот рана единице На частоты могут быть также наложены, вытекающие из условий равенства средних значений и дисперсий для теоретического и эмпирического распределений.

Практическое применение критерия Пирсона сводится к следующему:

1) вычисляется мера расхождения c 2 между двумя распределениями,

2) определяется число степеней свободы f,

3) по таблице (Приложение Е) находится вероятность Р того, что величина, имеющая распределение c 2 с f степенями свободы, превзойдет данное значение (c 2)р;

4) если эта вероятность мала, то гипотеза о согласованности теоретического и эмпирического распределений отбрасывается как неправдоподобная; если вероятность достаточно велика, то гипотеза не противоречит опытным данным.

На практике поступают по-другому:

1) задают значение уровня значимости a и по таблице находят для заданного числа степеней свободы f находят значение (c 2)a;

2) затем сравнивают вычисленное c 2 и табличное (c 2)a значения, при этом считают гипотезу правильной при c 2 < (c 2)a и не соответствующей опытным данным в противном случае.

При использовании критерия Пирсона желательно, чтобы число опытов было достаточно велико (не менее 100), а количество элементов в каждом разряде – не менее 5.

Кроме критерия Пирсона на практике применяют и другие критерии согласия, из которых чаще всего используют критерий Колмогорова. В качестве меры расхождения в данном критерии применяется максимальное абсолютное отклонение эмпирической функции распределения Fn(x) от соответствующей теоретической функции распределения F(x).

Применение критерия Колмогорова сводится к следующему:

1) находят величину d = max| Fn(x) - F(x) |;

2) вычисляют параметр ;

3) сравнивают вычисленное значение l с табличным значением la для принятого уровня значимости a.

Если вычисленное значение меньше табличного значения, т.е. при l < la, то гипотеза о совпадении эмпирического и теоретического распределений считается справедливой. В противном случае эта гипотеза отклоняется или считается сомнительной. Уровень значимости обычно выбирается равным a = 0,2…0,3, чему соответствует значение la @ 1.

Критерий Колмогорова может быть также применен для оценки близости двух эмпирических распределений Fn1(x) и Fn2(x). В этом случае параметр l вычисляется по формуле

где d = max| Fn1(x) - Fn2(x) | - максимальная абсолютная разность между эмпирическими функциями распределения.

 

Пример 1.14. Проверить соответствие теоретического и эмпирического распределений для предыдущего примера.

Решение.

Поскольку при использовании критерия c 2 число наблюдений в каждом интервале должна быть не менее 5, то необходимо объединить два первых интервала и три последних интервала. После чего составляем сравнительную таблицу чисел наблюдений в интервалах ni и соответствующих значений n·pi

m/h 0…2 2…3 3…4 4…7
ni   7.5 8.5  
n·pi 8.3 8.9 9.2 9.5

 

Вероятность pi попадания наблюдений в i- тый интервал вычисляются как разность значений теоретической функции нормального распределения F на границах соответствующего интервала. Значения F берем из предыдущего примера. Определяем меру расхождения

Затем по таблице (Приложение Е) для числа степеней свободы f = 4 – 3 = 1 находим путем линейной интерполяции, что при c 2 = 0,56 искомая вероятность приблизительно равна Р @ 0,46. Эта вероятность не является малой; поэтому, учитывая сравнительно небольшое число наблюдений и большой разброс опытных данных. гипотезу о нормальном законе распределения ежемесячного выпуска поковок можно считать правдоподобной.

Применим к исследуемому распределению критерий Колмогорова. Для этого надо вычислить абсолютные разности | Fn(x) - F(x) | и выбрать среди них наибольшую. Анализ табличных данных, приведенных в примерах 6 и 12, показывает, что в нашем примере d = 0,02. После этого вычисляем параметр Поскольку это значение значительно ниже la @ 1, можно утверждать, что существенных расхождений между эмпирическим и теоретическим (нормальным) распределением нет.

 


 

Приложение Б

Значения нормированной функции Лапласа и плотности нормированного нормального распределения от квантиля u

 

u Ф(u) j(u) u Ф(z) j(u)
0,00 0,0000 0,3989 1,0 0,3413 0,2420
0,05 0,0199 0,3984 1,1 0,3643 0,2179
0,10 0,0398 0,3970 1,2 0,3849 0,1942
0,15 0,05962 0,3945 1,3 0,4032 0,1714
0,20 0,07926 0,3910 1,4 0,4192 0,1497
0,25 0,0987 0.3867 1,5 0,4331 0.1295
0,30 0,1179 0,3814 1,6 0,4452 0,1109
0,35 0,1368 0,3752 1,7 0,4554 0,090
0,40 0,1554 0,3683 1,8 0,4640 0,0790
0,45 0,1736 0,3605 1,9 0,4712 0,0656
0,50 0,1914 0,3521 2,0 0,4772 0,0540
0,55 0,2088 0,3429 2,2 0,4861 0,0355
0,60 0,2257 0,3332 2,4 0,4918 0,0224
0,65 0,2421 0,3230 2,6 0,4953 0,0136
0,70 0,2580 0,3123 2,8 0,4974 0,0079
0,75 0,2734 0,3010 3,0 0,4986 0,0044
0,80 0,2881 0,2897 3,2 0,4993 0,0024
0,85 0,3023 0,2780 3,4 0,4996 0,0012
0,90 0,3159 0,2661 3,6 0,4998 0,0006
0,95 0,3289 0,2541 µ 0,5  

 


 

Приложение В

Квантили нормального распределения u P, при которых случайная величина принимает значение Р

 

Р u q Р u q Р u q
0,50 0,0000 0,70 0,5244 0,90 1,293
0,51 0,0250 0,71 0,5534 0,91 1,353
0,52 0,0501 0,72 0,5828 0,92 1,419
0,53 0,0752 0,73 0,6128 0,93 1,491
0,54 0,1004 0,74 0,6433 0,94 1,572
0,55 0,1257 0,75 0,6808 0,95 1,665
0,56 0,1510 0,76 0,7128 0,96 1,751
0,57 0,1764 0,77 0,7454 0,97 1,881
0,58 0,2019 0,78 0,7790 0,98 2,054
0,59 0,2275 0,79 0,8134 0,99 2,326
0,60 0,2533 0,80 0,8488 0,991 2,365
0,61 0,2793 0,81 0,8853 0,992 2,409
0,62 0,3055 0,82 0,9230 0,993 2,457
0,63 0,3319 0,83 0,9621 0,994 2,512
0,64 0,3585 0,84 1,0030 0,995 2,576
0,65 0,3953 0,85 1,0450 0,996 2,652
0,66 0,4125 0,86 1,0890 0,997 2,748
0,67 0,4399 0,87 1,1360 0,998 2,878
0,68 0,4677 0,88 1,1850 0,999 3,090
0,69 0,4959 0,89 1,2370    

 


Приложение Г

 

Значения Гамма–функции Г(b) для 1 £ b £ 2

b Г(b) b Г(b) b Г(b)
1,00 1,00000 1,34 0,89221 1,68 0,90500
1,01 0,99432 1,35 0,89115 1,69 0,90678
1,02 0,98884 1,36 0,89018 1,70 0,90863
1,03 0,98354 1,37 0,88931 1,71 0,91057
1,04 0,97843 1,38 0,88853 1,72 0,91256
1,05 0,97350 1,39 0,88785 1,73 0,91466
1,06 0,96874 1,40 0,88726 1,74 0,91682
1,07 0,96415 1,41 0,88676 1,75 0,91906
1,08 0,95972 1,42 0,88635 1,76 0,92137
1,09 0,95545 1,43 0,88603 1,77 0,92376
1,10 0,95135 1,44 0,88580 1,78 0,92622
1,11 0,94737 1,45 0,88566 1,79 0,92876
1,12 0,94359 1,46 0,88560 1,80 0,93138
1,13 0,93993 1,47 0,88563 1,81 0,93407
1,14 0,93641 1,48 0,88574 1,82 0,93684
1,15 0,93304 1,49 0,88594 1,83 0,93969
1,16 0,92980 1,50 0,88622 1,84 0,94261
1,17 0,92669 1,51 0,88659 1,85 0,94561
1,18 0,92372 1,52 0,88703 1,86 0,94868
1,19 0,92088 1,53 0,88756 1,87 0,95184
1,20 0,91816 1,54 0,88817 1,88 0,95507
1,21 0,91557 1,55 0,88880 1,89 0,95837
1,22 0,91310 1,56 0,88963 1,90 0,96176
1,23 0,91075 1,57 0,89048 1,91 0,96523
1,24 0,90852 1,58 0,89141 1,92 0,96877
1,25 0,90640 1,59 0,89242 1,93 0,97239
1,26 0,90439 1,60 0,89351 1,94 0,97609
1,27 0,90250 1,61 0,89468 1,95 0,97988
1,28 0,90071 1,62 0,89592 1,96 0,98374
1,29 0,89904 1,63 0.89724 1,97 0,98768
1,30 0,89747 1,64 0,89864 1,98 0,99170
1,31 0,89600 1,65 0,90011 1,99 0,99581
1,32 0,89464 1,66 0,90166 2,00 1,00000
1,33 0,89337 1,67 0,90329    

Примечание. 1) При b < 1

2) При b > 2


 

Приложение Д

 

Квантиль tq распределения Стьюдента

 

M tq при q
0.7 0.8 0.9 0.95
  0.727 1.376 3.078 6.314
  0.617 1.061 1.886 2.920
  0.584 0.978 1.638 2.353
  0.569 0.941 1.533 2.132
  0.559 0.920 1.476 2.015
  0.553 0.906 1.440 1.943
  0.549 0.896 1.415 1.895
  0.546 0.889 1.397 1.860
  0.543 0.883 1.383 1.833
  0.542 0.879 1.372 1.812
  0.540 0.876 1.363 1.796
  0.539 0.873 1.356 1.782
  0.538 0.870 1.350 1.771
  0.537 0.868 1.345 1.761
  0.536 0.866 1.341 1.753
  0.535 0.865 1.337 1.746
  0.534 0.863 1.333 1.740
  0.534 0.862 1.330 1.734
  0.533 0.861 1.328 1.729
  0.533 0.860 1.325 1.725
  0.532 0.859 1.323 1.721
  0.532 0.858 1.321 1.717
  0.532 0.858 1.319 1.714
  0.531 0.857 1.318 1.711
  0.531 0.856 1.316 1.708
  0.531 0.856 1.315 1.706
  0.531 0.855 1.314 1.703
  0.530 0.855 1.313 1.701
  0.530 0.854 1.311 1.699
  0.530 0.854 1.310 1.697
  0.529 0.851 1.303 1.684
  0.527 0.848 1.296 1.671
  0.526 0.845 1.289 1.658

 


 

Приложение Е

 

Значения критерия в зависимости от числа степеней свободы f и доверительной вероятности q

 

f Значения критерия для доверительной вероятности q
0,99 0,95 0,9 0,7 0,5 0,3 0,1 0,05 0,01
  0,00 0,00 0,02 0,15 0,45 1,07 2,71 3,84 6,64
  0,02 0,10 0,21 0,71 1,39 2,41 4,60 5,99 9,21
  0,11 0,35 0,58 1,42 2,37 3,66 6,25 7,82 11,34
  0,30 0,71 1,06 2,20 3,36 4,88 7,78 9,49 13,28
  0,87 1,63 2,20 3,83 5,35 7,23 10,64 12,59 16,81
  1,65 2,73 3,49 5,53 7,34 9,52 13,36 15,51 20,10
  2,56 3,94 4,86 7,27 9,34 11,78 15,99 18,31 23,20
  3,57 5,23 6,30 9,03 11,34 14,01 18,55 21,00 26,20
  4,66 6,57 7,79 10,82 13,34 16,22 21,10 23,70 29,10
  5,81 7,96 9,91 12,62 15,34 18,42 23,50 26,30 32,00
  7,02 9,39 10,86 14,44 17,34 20,60 26,00 28,90 34,80
  8,26   12,44 16,27 19,34 22,80 28,40 31,40 37,60
  11,52 14,61 16,47 20,90 24,30 28,20 34,40 37,70 44,30
  14,95 18,49 20,60 25,50 29,30 33,50 40,30 43,80 50,90

 


 

Приложение Ж

 

Значения критерия Фишера Fa для различных степеней свободы большей f 1 = n 1–1 и меньшей f 2 = n 2–1 дисперсий при двух уровнях значимости: α = 0,05 (верхние значения) и α = 0,01 (нижние значения)

 

f 2 f 1
                    µ
α = 0,05
                       
  18,5 19,0 19,1 19,2 19,3 19,3 19,4 19,4 19,5 19,5 19,5
  10,13 9,55 9,28 9,12 9,01 8,89 8,79 8,66 8,58 8,55 8,53
  7,71 6,94 6,59 6,39 6,26 6,09 5,96 5,80 5,70 5,66 5,63
  6,61 5,79 5,41 5,19 5,05 4,88 4,74 4,56 4,44 4,41 4,36
  5,59 4,74 4,35 4,12 3,97 3,79 3,64 3,44 3,37 3,32 3,23
  4,96 4,10 3,71 3,48 3,33 3,14 2,98 2,77 2,64 2,59 2,54
  4,35 3,49 3,10 2,87 2,71 2,51 2,35 2,12 1,97 1,91 1,84
  4,03 3,18 2,79 2,56 2,40 2,20 2,03 1,78 1,60 1,52 1,44
  3,94 3,09 2,70 2,46 2,31 2,10 1,93 1,68 1,48 1,39 1,28
µ 3,84 3,00 2,60 2,37 2,21 2,01 1,83 1,57 1,35 1,25 1,00
α = 0,01
                       
  98,5 99,0 99,1 99,2 99,3 99,4 99,4 99,4 99,5 99,5 99,5
  34,1 30,8 29,5 28,7 28,2 27,6 27,3 26,7 26,3 26,2 26,1
  21,2 18,0 16,7 16,0 15,5 15,0 14,5 14,0 13,7 13,6 13,4
  16,2 13,3 12,1 11,4 11,0 10,4 10,0 9,55 9,24 9,13 9,02
  12,2 9,55 8,45 7,85 7,49 7,00 6,62 6,16 6,07 5,75 5,63
  10,0 7,56 6,55 5,99 5,64 5,20 4,85 4,41 4,12 4,01 3,91
  8,10 5,85 4,94 4,43 4,10 3,70 3,37 2,94 2,64 2,54 2,42
  7,17 5,06 4,20 3,72 3,41 3,02 2,70 2,26 1,95 1,82 1,68
  6,90 4,82 3,98 3,51 3,21 2,82 2,50 2,06 1,73 1,60 1,43
µ 6,63 4,61 3,78 3,32 3,02 2,64 2,32 1,88 1,52 1,35 1,00

 

 


 

Приложение З

 

Значения v и w для оценки грубых ошибок в зависимости от объема выборки n и уровня значимости a

 

n v w n v w
a = 0,05 a = 0,01 a = 0,05 a = 0,05 a = 0,01 a = 0,05
  1,41 0,988 0,941   2,29 0,527 0,412
  1,69 0,899 0,765   2,39 0,482 0,376
  1,87 0,780 0,642   2,49 0,438 0,338
  2,00 0,698 0,560   2,62 0,391 0,300
  2,09 0,637 0,507   2,70 0,367 0,281
  2,17 0,590 0,468   2,78 0,241 0,260
  2,24 0,555 0,437        

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: