Проверка статистических гипотез

Гипотеза – это высказывание предположительного характера. Под статистической гипотезой понимают гипотезу о параметрах распределения или виде функции распределения генеральной совокупности. Примерами статистических гипотез являются следующие высказывания: генеральная совокупность, имеет нормальный закон распределения или генеральная средняя. Нулевой гипотезой называют основную гипотезу и обозначают символом Но. Обычно нулевые гипотезы утверждают, что различие между сравниваемыми величинами (параметрами или функциями распределения) отсутствуют, а наблюдаемые отклонения объясняются лишь случайными колебаниями выборки. Альтернативной (конкурирующей) называется гипотеза, конкурирующая с нулевой гипотезой в том смысле, что если нулевая гипотеза отвергается, то принимается альтернативная, которую обозначают символом Н1. Проверку статистических гипотез обычно осуществляют в следующем порядке:

А) Располагая выборочными данными х1, х2, …, х­ и руководствуясь конкретными условиями рассматриваемой задачи, формулируют гипотезу Н0, которую называют основной или нулевой, и конкурирующую гипотезу Н1. Конкурирующая гипотеза представляет собой ту гипотезу, которая будет принята, если отвергнут основную гипотезу.

Б) Задаются вероятностью α, которую называют уровнем значимости ошибки первого рода. Поясним ее смысл. Решение о том, можно ли считать высказывание Н0 справедливым для генеральной совокупности, принимается по выборочным данным, т.е. по ограниченному ряду наблюдений, следовательно, это решение может быть ошибочным. При этом может иметь место ошибка двух родов: отвергают гипотезу Н0, или, иначе, принимают альтернативную гипотезу Н1, тогда как на самом деле гипотеза Н0 верна – это ошибка первого рода; принимают гипотезу Н0, тогда как на самом деле высказывание Н0 неверно, т.е. верной является гипотеза Н1 – это ошибка второго рода. Значит, уровень значимости α - это вероятность ошибки первого рода, то есть вероятность того, что верная основная гипотеза будет отвергнута и принята ошибочная конкурирующая гипотеза.

В) Вводят статистический критерий проверки сформулированных гипотез, который представляет собой случайную величину, подчиняющуюся определенному заранее известному закону распределения, если верна основная гипотеза. По уровню значимости ошибки первого рода строят допустимую область (где принимается гипотеза Н0) и критическую область где отвергается гипотеза Н0 и принимается гипотеза Н1).

Г) По результатам выборки вычисляют наблюдаемое значение критерия и определяют область, в которую полученное значение критерия попадает. Если наблюдаемое значение критерия попало в критическую область, то гипотезу Н0 отвергают и принимают гипотезу Н1. Если наблюдаемое значение критерия попало в допустимую область, то говорят, что нет оснований отвергнуть гипотезу Н0.

Требуется при заданном уровне значимости α проверить, подчиняется ли генеральная совокупность выбранному теоретическому закону распределения f(x).

Выдвинем гипотезы

Н0: Признак Х1 подчиняется закону распределения f(x)

Н1: Признак Х1не подчиняется закону распределения f(x)

Для проверки сформулированных гипотез при помощи критерия Пирсона необходимо выполнить ряд расчетов.

Для каждого интервала признака Х1 необходимо вычислить вероятности по-

падания признака в данный интервал. Используем готовую формулу из теории вероятности для величины, распределенной нормально:

причем крайнюю левую точку интервала заменяем на – ∞; крайнюю правую точку заменяем на + ∞, поскольку теоретическое нормальное распределение определено на всей числовой оси.

                         
xi xi+1 ni zi zi+1 Ф(zi) Ф(zi+1) ni* Ni* Ni Bi Vi P
0,55 1,33   -1,45 -1,01 -0,5 -0,343 12,56 12,56   27,07274 76,5127 0,156963
1,33 2,08   -1,01 -0,58 -0,343 -0,2202 9,831 47,782   29,87509 2,09283 0,122886
2,08 2,83   -0,58 -0,16 -0,22 -0,0634 12,54         0,156764
2,83 3,58   -0,16 0,264 -0,063 0,10418 13,4         0,167561
3,58 4,33   0,26 0,688 0,1042 0,25424 12,01         0,150066
4,33 5,08   0,69 1,112 0,2542 0,36685 9,009 9,009   18,73305 53,7241 0,112609
5,08 5,83   1,11 1,535 0,3669 0,43765 5,664 10,652   3,783148 27,1312 0,070801
5,83 6,58   1,54 1,959 0,4377 0,5 4,988         0,062348
                    79,46403 159,464  

После заполнения 3–го столбца отмечаем, что 4 элемента в этом столбце меньше пяти. Поскольку в критерии Пирсона требуется, чтобы в каждом интервале было не меньше пяти единиц, то объединим частоты. Делаем проверку:

80+79,46403=159,464 => верно

Запишем наблюдаемое значение критерия: χ2набл = 79,46403. Выберем уровень значимости ошибки α=0,05. Число степеней свободы равно k = m –2 – 1, где m число интервалов после объединения. В нашем случае число интервалов после объединения m = 4. Тогда число степеней свободы равно k = 4 – 3 = 1. По таблице критических точек χ2 (Приложение 5) находим χ2кр (0,05; 1) = 3,84. Сравниваем: χ2набл > χ2кр. Следовательно, есть основания отвергнуть гипотезу о нормальном законе распределения признака Х1 и принять гипотезу Н1.

Выдвинем гипотезы

Н0: Признак Х2 подчиняется закону распределения f(x)

Н1: Признак Х2не подчиняется закону распределения f(x)

Для проверки сформулированных гипотез при помощи критерия Пирсона необходимо выполнить ряд расчетов.

Для каждого интервала признака Х2 необходимо вычислить вероятности по-

падания признака в данный интервал. Используем готовую формулу из теории вероятности для величины, распределенной нормально:

причем крайнюю левую точку интервала заменяем на – ∞; крайнюю правую точку заменяем на + ∞, поскольку теоретическое нормальное распределение определено на всей числовой оси.

                         
xi xi+1 ni zi zi+1 Ф(zi) Ф(zi+1) ni* Ni* Ni Bi Vi P
0,014 0,054   -0,15 0,027 -0,5 0,01088 40,87 40,87   8,954169 88,0842 0,510879
0,054 0,094   0,03 0,209 0,0109 0,08281 5,755 39,13   9,352106 10,2224 0,071932
0,094 0,131   0,21 0,377 0,0828 0,14701 5,136         0,064203
0,131 0,174   0,38 0,573 0,147 0,21659 5,566         0,069571
0,174 0,214   0,57 0,755 0,2166 0,27474 4,652         0,058154
0,214 0,254   0,75 0,936 0,2747 0,32546 4,057         0,050718
0,254 0,294   0,94 1,118 0,3255 0,36826 3,424         0,042798
0,294 0,334   1,12 1,3 0,3683 0,5 10,54         0,131745
                    18,30627 98,3066  

После заполнения 3–го столбца отмечаем, что 6 элементов этом столбце меньше пяти. Поскольку в критерии Пирсона требуется, чтобы в каждом интервале было не меньше пяти единиц, то объединим частоты. Делаем проверку:

80+18,30627=98,3066 => верно

Запишем наблюдаемое значение критерия: χ2набл = 18,30627. Выберем уровень значимости ошибки α=0,05. Число степеней свободы равно k = m –2 – 1, где m число интервалов после объединения. В нашем случае число интервалов после объединения m = 2. Тогда число степеней свободы равно k = 2 – 3 = -1. По таблице критических точек χ2 (Приложение 5) находим χ2кр (0,05; -1) – не существует. Следовательно, есть основания отвергнуть гипотезу о нормальном законе распределения признака Х2 и принять гипотезу Н1.

Выдвинем гипотезы

Н0: Признак У подчиняется закону распределения f(x)

Н1: Признак У не подчиняется закону распределения f(x)

Для проверки сформулированных гипотез при помощи критерия Пирсона необходимо выполнить ряд расчетов.

Для каждого интервала признака У необходимо вычислить вероятности попадания признака в данный интервал. Используем готовую формулу из теории вероятности для величины, распределенной нормально:

причем крайнюю левую точку интервала заменяем на – ∞; крайнюю правую точку заменяем на + ∞, поскольку теоретическое нормальное распределение определено на всей числовой оси.

                         
yi yi+1 ni zi zi+1 Ф(zi) Ф(zi+1) ni* Ni* Ni Bi Vi P
      -6,14 -3,79 -0,5 -0,4999 0,006 0,006   53964,01   7,57E-05
      -3,79 -1,44 -0,5 -0,4252 5,981 5,981   16,78321 42,8022 0,074763
      -1,44 0,907 -0,425 0,31789 59,44 59,44   27,51335 6,07335 0,743052
      0,91 3,255 0,3179 0,49943 14,52 14,52       0,181543
      3,26 5,603 0,4994 0,5 0,045 0,045       0,000566
      5,6 7,951 0,5 0,5 8E-07 8E-07       1,05E-08
      7,95 10,3 0,5 0,5 7E-14         8,88E-16
      10,3 12,65 0,5 0,5            
                    54008,3 54088,3  

После заполнения 3–го столбца отмечаем, что 6 элементов этом столбце меньше пяти. Поскольку в критерии Пирсона требуется, чтобы в каждом интервале было не меньше пяти единиц, то объединим частоты. Делаем проверку:

80+54008,3=54088,3 => верно

Запишем наблюдаемое значение критерия: χ2набл = 54088,3. Выберем уровень значимости ошибки α=0,05. Число степеней свободы равно k = m –2 – 1, где m число интервалов после объединения. В нашем случае число интервалов после объединения m = 3. Тогда число степеней свободы равно k = 3 – 3 = 0. По таблице критических точек χ2 (Приложение 5) находим χ2кр (0,05; 0) – не существует. Следовательно, есть основания отвергнуть гипотезу о нормальном законе распределения признака Х2 и принять гипотезу Н1.

Зависимость между переменными случайными величинами Х и У, при которой каждому значению одной из них соответствует определенное среднее значение другой величины, называется корреляционной. Функция, описывающая такую зависимость, называется регрессией. По виду функции различают линейную и нелинейную регрессии, по количеству зависимых переменных – одномерную и множественную регрессии. Признак Х, соответствующий независимой переменной, будем называть факторным, признак У, соответствующий зависимой переменной, будем называть результативным. Связь между признаками исследуют с помощью методов наименьших квадратов. Это задача апроксимации функции. Этот метод основан на критерии совпадения функции. Из условия необходимых для существования минимума функции можно получить необходимое число уравнений

для определения неизвестных параметров.

 

Для признаков X1 и Y построим корреляционное поле в системе координат

ХУ, используя исходную таблицу:

Корреляционное поле на данном рисунке характеризуется набором из 80 точек. Уравнение линейной регрессии имеет вид: у = кх + b, где параметры к и b определяются по методу наименьших квадратов из условия минимального отклонения исходных точек корреляционного поля от прямой регрессии. Для расчета этих величин заполним таблицу:

# Y X1 X2 Y*X1 Y*X2 x1^2 x2^2 x1*x2
    1,09 0,031 130,8 3,72 1,19 0,000961 0,03379
    4,99 0,042 623,75 5,25 24,90 0,001764 0,20958
    1,69 0,046 304,2 8,28 2,86 0,002116 0,07774
    5,15 0,033 643,75 4,125 26,52 0,001089 0,16995
    0,93 0,03 79,05 2,55 0,86 0,0009 0,0279
    5,04 0,024 478,8 2,28 25,40 0,000576 0,12096
    0,86 0,07 60,2 4,9 0,74 0,0049 0,0602
    4,97 0,03 397,6 2,4 24,70 0,0009 0,1491
    0,99 0,03 74,25 2,25 0,98 0,0009 0,0297
    5,05 0,051   6,12 25,50 0,002601 0,25755
    4,87 0,014 292,2 0,84 23,72 0,000196 0,06818
    2,11 0,03 516,95 7,35 4,45 0,0009 0,0633
    5,48 0,04     30,03 0,0016 0,2192
    1,21 0,048 193,6 7,68 1,46 0,002304 0,05808
      0,078   16,77 36,00 0,006084 0,468
    0,84 0,063 79,8 5,985 0,71 0,003969 0,05292
    4,76 0,047 523,6 5,17 22,66 0,002209 0,22372
    1,16 0,033   2,475 1,35 0,001089 0,03828
    5,23 0,076 967,55 14,06 27,35 0,005776 0,39748
    1,36 0,053 224,4 8,745 1,85 0,002809 0,07208
    1,18 0,08 171,1 11,6 1,39 0,0064 0,0944
    5,26 0,059 447,1 5,015 27,67 0,003481 0,31034
    0,81 0,027 109,35 3,645 0,66 0,000729 0,02187
    5,33 0,035 692,9 4,55 28,41 0,001225 0,18655
    2,01 0,039 462,3 8,97 4,04 0,001521 0,07839
    5,12 0,062   7,75 26,21 0,003844 0,31744
    1,09 0,051 98,1 4,59 1,19 0,002601 0,05559
    5,01 0,05 626,25 6,25 25,10 0,0025 0,2505
    1,37 0,027 157,55 3,105 1,88 0,000729 0,03699
    4,78 0,033 573,6 3,96 22,85 0,001089 0,15774
    4,8 0,047   4,7 23,04 0,002209 0,2256
    4,79 0,049 502,95 5,145 22,94 0,002401 0,23471
    5,13 0,032 538,65 3,36 26,32 0,001024 0,16416
    1,91 0,062 401,1 13,02 3,65 0,003844 0,11842
    5,24 0,054   5,4 27,46 0,002916 0,28296
    1,02 0,082 96,9 7,79 1,04 0,006724 0,08364
    4,9 0,054 514,5 5,67 24,01 0,002916 0,2646
    1,71 0,059 333,45 11,505 2,92 0,003481 0,10089
    5,26 0,063 736,4 8,82 27,67 0,003969 0,33138
    0,82 0,034 57,4 2,38 0,67 0,001156 0,02788
    4,96 0,038 595,2 4,56 24,60 0,001444 0,18848
    1,05 0,045 157,5 6,75 1,10 0,002025 0,04725
    5,83 0,02 1340,9 4,6 33,99 0,0004 0,1166
    1,54 0,032 215,6 4,48 2,37 0,001024 0,04928
    5,27 0,059 948,6 10,62 27,77 0,003481 0,31093
    1,12 0,066 78,4 4,62 1,25 0,004356 0,07392
    5,34 0,023 774,3 3,335 28,52 0,000529 0,12282
    1,17 0,039 163,8 5,46 1,37 0,001521 0,04563
    5,42 0,052 840,1 8,06 29,38 0,002704 0,28184
    1,52 0,089 273,6 16,02 2,31 0,007921 0,13528
    1,23 0,029 202,95 4,785 1,51 0,000841 0,03567
    4,95 0,022 445,5 1,98 24,50 0,000484 0,1089
    1,28 0,062 326,4 15,81 1,64 0,003844 0,07936
    5,32 0,063 425,6 5,04 28,30 0,003969 0,33516
    0,55 0,047 38,5 3,29 0,30 0,002209 0,02585
    4,85 0,026   3,64 23,52 0,000676 0,1261
    1,08 0,047   5,875 1,17 0,002209 0,05076
    5,01 0,037 551,1 4,07 25,10 0,001369 0,18537
    0,94 0,025 108,1 2,875 0,88 0,000625 0,0235
    5,28 0,029 976,8 5,365 27,88 0,000841 0,15312
    4,85 0,023 460,75 2,185 23,52 0,000529 0,11155
    0,63 0,025 37,8 1,5 0,40 0,000625 0,01575
    4,82 0,038 337,4 2,66 23,23 0,001444 0,18316
    1,22 0,036   3,6 1,49 0,001296 0,04392
    5,05 0,035 530,25 3,675 25,50 0,001225 0,17675
    1,26 0,042 245,7 8,19 1,59 0,001764 0,05292
    5,18 0,052 647,5 6,5 26,83 0,002704 0,26936
    1,06 0,053   7,95 1,12 0,002809 0,05618
    4,73 0,038 402,05 3,23 22,37 0,001444 0,17974
    1,33 0,059 226,1 10,03 1,77 0,003481 0,07847
    0,85 0,037 63,75 2,775 0,72 0,001369 0,03145
    5,45 0,052 1062,75 10,14 29,70 0,002704 0,2834
    0,93 0,035 65,1 2,45 0,86 0,001225 0,03255
    4,58 0,022 366,4 1,76 20,98 0,000484 0,10076
    1,25 0,078 193,75 12,09 1,56 0,006084 0,0975
    5,31 0,065 1088,55 13,325 28,20 0,004225 0,34515
    1,12 0,04 173,6 6,2 1,25 0,0016 0,0448
    4,74 0,028 402,9 2,38 22,47 0,000784 0,13272
    0,98 0,045 102,9 4,725 0,96 0,002025 0,0441
    0,98 0,075   18,75 0,96 0,005625 0,0735
Суммы:   251,35 3,596 32632,3 488,525 1105,31 0,18432 10,99131

Следовательно параметры регрессии равны:

 

k = -0,236, b = 130,868

Окончательно, уравнение линейной регрессии имеет вид: y = -0,236x + 130,868

Определим выборочный коэффициент корреляции по формуле:

r=k (σ / σ y)=-0,00964

Проверим коэффициент корреляции на значимость.

Основная гипотеза H0:, rг = 0

Конкурирующая гипотеза H1: rг ≠ 0.

Для проверки гипотезы H0 вычислим наблюдаемое значение критерия:

Tнабл= r( = -0,08517

По таблице критических точек распределения Стьюдента найдем критическое значение критерия при уровне значимости ошибки α = 0,05 и числе степеней свободы k = n – 2 = 80 – 2 = 78:

tкр = tкр (0,05; 78) = 1,97. Сравнивая, получим, что ⎪Тнабл ⎪< tкр.

Следовательно, нулевую гипотезу следует принять. Это значит, что коэффициент корреляции не значительно отличается от нуля, и признаки Х1 и У некоррелированы. Найдем коэффициент детерминации, который для случая линейной регрессии равен квадрату коэффициента корреляции: R = r2. Получим: R = (- 0,00964)2=9,298E-05

Для признаков X2 и Y построим корреляционное поле в системе координат ХУ, используя исходную таблицу:

Следовательно параметры регрессии равны:

 

k = 908,099, b = 89,306

Окончательно, уравнение линейной регрессии имеет вид y = 908,1x + 89,30

Определим выборочный коэффициент корреляции по формуле:

r=k (σ x­/ σ y)=0,314533

Проверим коэффициент корреляции на значимость.

Основная гипотеза H0:, rг = 0

Конкурирующая гипотеза H1: rг ≠ 0.

Для проверки гипотезы H0 вычислим наблюдаемое значение критерия:

Tнабл= r( = 2,926

По таблице критических точек распределения Стьюдента найдем критическое значение критерия при уровне значимости ошибки α = 0,05 и числе степеней свободы k = n – 2 = 80 – 2 = 78:

tкр = tкр (0,05; 78) = 1,97. Сравнивая, получим, что ⎪Тнабл ⎪> tкр.

Следовательно, нулевую гипотезу следует отвергнуть. Это значит, что коэффициент корреляции значимо отличается от нуля, и признаки Х2 и У коррелированы.

Найдем коэффициент детерминации, который для случая линейной регрессии равен квадрату коэффициента корреляции: R = r2. Получим: R = (0,314533)2=0,0989

Для признаков X2 и Х1 построим корреляционное поле в системе координат ХУ, используя исходную таблицу:

Следовательно параметры регрессии равны:

 

k = -13,531, b = 3,75

Окончательно, уравнение линейной регрессии имеет вид y = -13,53x + 3,750 Определим выборочный коэффициент корреляции по формуле:

r=k (σ x­/ σ y)=-0,1147

Проверим коэффициент корреляции на значимость.

Основная гипотеза H0:, rг = 0

Конкурирующая гипотеза H1: rг ≠ 0.

Для проверки гипотезы H0 вычислим наблюдаемое значение критерия:

Tнабл= r( = -1,02

По таблице критических точек распределения Стьюдента найдем критическое значение критерия при уровне значимости ошибки α = 0,05 и числе степеней свободы k = n – 2 = 80 – 2 = 78:

tкр = tкр (0,05; 78) = 1,97. Сравнивая, получим, что ⎪Тнабл ⎪< tкр.

Следовательно, нулевую гипотезу следует принять. Это значит, что коэффициент корреляции не значительно отличается от нуля, и признаки Х1 и X2 некоррелированы. Найдем коэффициент детерминации, который для случая линейной регрессии равен квадрату коэффициента корреляции: R = r2. Получим: R = (- 0,1147)2=0,0131

 
 
 
 

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: