Проверка нормальности распределения

Для проверки распределения на предмет соответствия нормальному закону вычисляют выборочную среднюю и среднее квадратическое отклонение σ, а затем вычисляют теоретические частоты по следующей формуле:

где: n – объём выборки, h – шаг (разность между двумя соседними вариантами),

Рассмотрим пример. В результате выборочного обследования стажа работы профессорско-преподавательского состава получены следующие данные:

Стаж работы (лет) 0-4 4-8 8-12 12-16 16-20 20-24 24-28 28-32
Число преподавателей                

Выяснить, является ли распределение стажа работы нормальным на уровне значимости α=0,01.

Для решения поставленной задачи перейдем от заданного интервального распределения к распределению равноотстоящих вариант и вычислим выборочную среднюю и выборочное среднее квадратическое отклонение.

n=161,

а

Составим расчетную таблицу, заполняя её последовательно по столбцам слева направо:

i xi ni (ni-ni’)2
    -2,58 0,014 1,66   1,8 1,08
    -1,84 0,073 8,66   0,44 0,05
    -1,1 0,218 25,85   0,72 0,033
    -0,37 0,373 44,24   17,89 0,41
    0,37 0,373 44,24   3,1 0,07
    1,1 0,218 25,85   26,52 1,03
    1,84 0,073 8,66   7,08 0,82
    2,58 0,014 1,66   0,12 0,07
Σ            

По таблице критических точек распределения по уровню значимости α=0,01 и числу степеней свободы k=s-3=8-3=5 находим критическую точку критической области

Так как то гипотезу о нормальном распределении генеральной совокупности принимаем.

Критерий Манна-Уитни U-критерий Манна-Уитни используется для оценки различий между двумя малыми выборками (n1,n2≥3 или n1=2, n2≥5) по уровню количественно измеряемого признака. При этом первой выборкой принято считать ту, где значение признака больше. Нулевая гипотеза H0={уровень признака во второй выборке не ниже уровня признака в первой выборке}; альтернативная гипотеза – H1={уровень признака во второй выборке ниже уровня признака в первой выборке}. Рассмотрим алгоритм применения U-критерия Манна-Уитни: 1. Перенести все данные испытуемых на индивидуальные карточки, пометив карточки 1-й выборки одним цветом, а 2-й – другим. 2. Разложить все карточки в единый ряд по степени возрастания признака и проранжировать в таком порядке. 3. Вновь разложить карточки по цвету на две группы. 4. Подсчитать сумму рангов отдельно по группам и проверить, совпадает ли общая сумма рангов с расчетной. 5. Определить большую из двух ранговых сумм . 6. Вычислить эмпирическое значение U: , где - количество испытуемых в - выборке (i = 1, 2), - количество испытуемых в группе с большей суммой рангов. 7. Задать уровень значимости α и, используя специальную таблицу, определить критическое значение Uкр(α). Если , то H 0 на выбранном уровне значимости принимается. Рассмотрим использование U критерия Манна-Уитни на примере. Проведение срезовой контрольной работы по математике (алгебра и геометрия) в средней общеобразовательной школе дало следующие результаты по 10-балльной шкале для класса, обучающегося по программе «Развивающего обучения» (7 «Б»), и класса, обучающегося по традиционной системе (7 «А»):
Ученик \ Класс 7 «А» (баллы) 7 «Б» (баллы)
     
     
     
     
     
     
     
     
     
     
     
  -  

Определите, превосходят ли учащиеся 7 «Б» учащихся 7 «А» по уровню знаний по математике.

Сравнение результатов показывает, что баллы, полученный за контрольную работу, в 7 «Б» классе несколько выше, поэтому первой считаем выборку результатов 7 «Б» класса. Таким образом, нам требуется определить, можно ли считать имеющуюся разницу между баллами существенной. Если можно, то это будет означать, что класс, обучающийся по системе «развивающего обучения» имеет более качественные знания по математике. В противном случае, на выбранном уровне значимости различие окажется несущественным.

Для оценки различий между двумя малыми выборками (в данном примере их объёмы равны: n1=12, n2=11) используем критерий Манна-Уитни. Проранжируем представленную таблицу:

7 «Б» (баллы) ранг 7 «А» (баллы) ранг
  22,5    
  22,5   20.5
  20.5   16.5
  16.5   16.5
  16.5   11.5
  16.5   11.5
  16.5   7.5
  11.5   7.5
  11.5   7.5
  7.5   4.5
  4.5    
       
Сумма: 168.5 Сумма: 107.5

При ранжировании объединяем две выборки в одну. Ранги присваиваются в порядке возрастания значения измеряемой величины, т.е. наименьшему рангу соответствует наименьший балл. Заметим, что в случае совпадения баллов для нескольких учеников ранг такого балла следует считать, как среднее арифметическое тех позиций, которые занимают данные баллы при их расположении в порядке возрастания. Например, 4 балла получили 3 ученика (см. таблицу). Значит, первые 3 позиции в расположении займёт балл, равный 4. Поэтому ранг для 4 баллов – это среднее арифметическое для позиций 1, 2 и 3, или: . Аналогично рассуждаем при вычислении ранга для балла, равного 5. Такой балл получили двое учащихся. Значит, при распределении по возрастанию первые три позиции занимает балл, равный 4, а четвёртую и пятую позиции займёт балл, равный 5. Поэтому его ранг будет равен среднему арифметическому между числами 4 и 5, т.е. 4.5.

Используя предложенный принцип ранжирования, получим таблицу рангов. Заметим, что выбор среднего арифметического в качестве ранга применяется при любом ранжировании, в том числе необходимого и для вычисления других критериев достоверности или же коэффициента корреляции Спирмена.

Чтобы использовать критерий Манна-Уитни, рассчитаем суммы рангов рассматриваемых выборок (см. таблицу). Сумма для первой выборки равна 168,5, для второй – 107,5. Обозначим наибольшую из этих сумм через Tx (Tx=168.5). Среди объёмов n1 и n2 выборок наибольший обозначим nx. Этих данных достаточно, чтобы воспользоваться формулой расчёта эмпирического значения критерия:

Tx=168,5, nx=12>11=n2. Тогда:

Критическое значение критерия находим по специальной таблице. Пусть уровень значимости равен 0.05.

Гипотеза H0 о незначительности различий между баллами двух классов принимается, если uкр<uэмп. В противном случае H0 отвергается и различие определяется как существенное.

Следовательно, различия в уровне знаний по математике среди учащихся можно считать несущественными.

Схема использования критерия Манна-Уитни выглядит следующим образом

Пометить данные двух выборок X и Y и представить их в виде единого упорядоченного ряда
Посчитать сумму рангов отдельно двух выборок
Определить uкр, и если uэмп>uкр, то H0 принимается
Определить большую из двух ранговых сумм Tx и её объём nx
Вычислить эмпирическое значение
Проранжировать полученный ряд и вновь разбить его на две заданные выборки объемами n1 и n2
Критерий Колмогорова-Смирнова Данный критерий также позволяет оценить существенность различий между двумя выборками, в том числе возможно его применение для сравнения эмпирического распределения с теоретическим. Критерий позволяет найти точку, в которой сумма накопленных частот расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения. Нулевая гипотеза H0={различия между двумя распределениями недостоверны (судя по точке максимального накопленного расхождения между ними)}. Схематично алгоритм применения критерия Колмогорова-Смирнова можно представить следующим образом: Проиллюстрируем использование критерия Колмогорова-Смирнова на примере. При изучении творческой активности студентов были получены результаты для экспериментальных и контрольных групп (см. таблицу). Являются ли значимыми различия между контрольной и экспериментальной группами?
Уровень усвоения Частота в экспериментальной группе Частота в контрольной группе
Хороший 172 чел. 120 чел.
Приблизительный 36 чел. 49 чел.
Плохой 15 чел. 36 чел.
Объём выборки n1=172+36+15=223 n2=120+49+36=205

Вычисляем относительные частоты f, равные частному от деления частот на объём выборки, для двух имеющихся выборок.

Далее определяем модуль разности соответствующих относительных частот для контрольной и экспериментальной выборок.

В результате исходная таблица примет следующий вид:

Относительная частота экспериментальной группы (fэксп) Относительная частота контрольной группы (fконтр) Модуль разности частот |fэксп – fконтр|
172/223≈0.77 120/205≈0.59 0.18
36/223≈0.16 49/205≈0.24 0.08
15/223≈0.07 36/205≈0.17 0.1

Среди полученных модулей разностей относительных частот выбираем наибольший модуль, который обозначается dmax. В рассматриваемом примере 0.18>0.1>0.08, поэтому dmax=0.18.

Эмпирическое значение критерия λэмп определяется с помощью формулы:

Чтобы сделать вывод о схожести по рассматриваемому критерию между двумя группами, сравним экспериментальное значение критерия с его критическим значением, определяемым по специальной таблице, исходя из уровня значимости . В качестве нулевой гипотезы примем утверждение о том, что сравниваемые группы незначительно отличаются друг от друга по уровню усвоения. При этом нулевую гипотезу следует принять в том случае, если наблюдаемое значение критерия не превосходит его критического значения.

Считая, что , по таблице определяем критическое значение критерия: λкр(0,05)=1,36.

Таким образом, λэмп=1,86>1,36= λкр. Следовательно, нулевая гипотеза отвергается, и группы по рассмотренному признаку отличаются существенно.

Заметим, что объёмы рассматриваемых выборок должны быть достаточно большими: n1≥50, n2≥50.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: