Критерий согласия Пирсона

Выше рассматривались гипотезы, относящиеся к отдельным параметрам распределения случайных величин, причём модели законов распределения этих величин представлялись известными. Однако во многих практических задачах модель закона распределения заранее не известна и возникает задача выбора модели, согласующейся с результатами наблюдений над случайной величиной.

Пусть высказано предположение, что неизвестная функция распределения FX (x) исследуемой случайной величины Х имеет вполне определённую модель F теор(х), т.е. высказана гипотеза

Н 0: FX (x) = F теор(х). (18)

В качестве теоретической модели F теор(х) может быть рассмотрена нормальная, биномиальная или какая-либо другая модель. Это определяется сущностью изучаемого явления, а также результатом предварительной обработки наблюдений над случайной величиной (формой графика вариационного ряда, соотношениями между выборочными характеристиками и т.д.).

Критерии, с помощью которых проверяется гипотеза (19), называются критериями согласия. Рассмотрим лишь один из них, использующий χ2-рас-пределение и получивший название критерия согласия Пирсона.

Критерий предполагает, что результаты наблюдений сгруппированы в вариационный ряд. Для определённости положим, что это дискретный вариационный ряд с числом групп, равным ν (см. строки 1 и 2 табл. 7).

Таблица 7.

xi x 1 x ν-1 x ν
mi m 1 m ν-1 m ν
pi теор= Р (X = xi) р 1теор = Р (Х = х 1) р ν-1теор = Р (Х = х ν-1) р νтеор = 1 – р 1теор - … - р ν-1теор
mi теор= npi теор m 1теор = np 1теор m ν-1теор = np ν - 1теор m νтеор = np νтеор

Однако, прежде чем рассматривать сам критерий Пирсона, вспомним параметрическое оценивание закона распределения. Последовательность оценивания такая: формулируют гипотезу о модели закона распределения случайной величины; по результатам наблюдений находят оценки неизвестных параметров этой модели (допустим, что число неизвестных параметров равно l); вместо неизвестных параметров подставляют в модель найденные оценки. В результате предполагаемая модель закона оказывается полностью определённой и, используя её, рассчитывают вероятности pi теор= Р (X = xi) того, что случайная величина Х примет зафиксированные в наблюдениях значения xi, i =1, 2, …, ν – 1; эти вероятности называют теоретическими. Обратим внимание на следующее обстоятельство: т.к. сумма вероятностей ряда распределения должна быть равна единице, т.е.

=1, (19)

то полагаем вероятность р νтеор = 1 – р 1теорр 2теор - … - р ν-1теор. Теоретические вероятности записаны в строке 3 табл. 7. Теперь найдём теоретические частоты mi теор= npi теор; они записаны в строке 4 табл. 7.

Обратим внимание на следующее: критерий согласия Пирсона можно использовать только в том случае, когда

mi теор ≥ 5, i =1, 2, …, ν. (20)

Поэтому ту группу вариационного ряда, для которой это условие не выполняется, объединяют с соседней и соответственно уменьшают число групп; так поступают до тех пор, пока для каждой новой группы mi теор будет не меньше 5. Новое число групп, как и прежде, обозначим символом ν.

Оказывается, что если предполагаемая модель закона распределения действительно имеет место, т.е. верна гипотеза (18), и если к тому же выполняются условия (19) и (20), то величина

(21)

будет иметь χ2-распределение с числом степеней свободы k = ν – l – 1, т.е.

= χ2(k = ν – l – 1),

где ν – число (новое) групп вариационного ряда; l – число неизвестных параметров предполагаемой модели, оцениваемых по результатам наблюдений (если все параметры предполагаемого закона известны точно, то l = 0). Величину (21) и называют критерием согласия χ2 или критерием согласия Пирсона.

Далее поступаем так же, как обычно при проверке гипотез. Задаёмся уровнем значимости α. Зная распределение критерия φ, находим критическую область, как правило, это область правосторонняя, т.е. она имеет вид (х крпр, α, +∞); найдём числовое значение φчис критерия (21). Если φчис попадает в интервал (х крпр, α, +∞), то делаем вывод о неправомерности гипотезы Н 0 (18); при этом не следует забывать, что этот вывод может оказаться ошибочным (на самом деле в генеральной совокупности гипотеза Н 0 (18) имеет место) и вероятность того, что вывод ошибочен, равна α.

Если φчис не попадает в интервал (х крпр, α, +∞), то гипотеза Н 0 (18) не отвергается.

В заключение приведём схему определения точки х крпр, α:

α → γ = 1 – α

l, ν→ k = ν – l – 1 χ2γ → х крпр, α = χ2γ. (22)

Задача 4. По распределению успеваемости 100 студентов-заочников, которые сдавали четыре экзамена, заданному в примере 3, выяснить, можно ли при уровне значимости α=0,1 считать, что число сданных экзаменов среди четырёх имеет биномиальный закон распределения.

Обратимся к ранее рассмотренному примеру 3. В нём была приведена формула биномиального закона (6); этот закон имеет один параметр – это вероятность р. Числовое значение этого параметра было неизвестно, поэтому по результатам наблюдений находилась оценка р * этого параметра: р *=0,88, которая использовалась в формуле биномиального закона. Теоретические вероятности pi теор, вычисленные по формуле (7) и теоретические частоты mi теор приведены в столбцах 5 и 6 таблицы 5. Обратим внимание на то, что в этой таблице условие (19) выполняется. Условие же (20) не выполняется для первых двух групп. Присоединим эти группы к третьей группе. В результате получим новый ряд с числом групп ν=3, при этом т 1 = 1 + 1 + 3 = 5, mi теор = 0,021 + 0,0608 + 6,691 = 7,320; т 2=35, а т 2теор = 32,711; т 3 = 60, т 3теор = 59,969.

Числовое значение критерия (21) равно φчис=0,895. Теперь по схеме (22) найдём критическую точку:

α = 0,1 → γ = 1 – α = 0,9

l = 1, ν = 3 → k = ν – l – 1 = 1 χγ2 = 2,71 → х крпр, α = 2,71.

Т.к. φчис=0,895 не попадёт в критическую область (2,71; +∞), то гипотезу о том, что число сданных экзаменов среди четырёх имеет биномиальный закон распределения, не отвергаем.

Выше предполагалось, что результаты наблюдений сгруппированы в дискретный вариационный ряд. Если они сгруппированы в интервальный ряд, то при использовании критерия согласия Пирсона теоретические вероятности pi теор находятся так, как указано в табл. 8.

Таблица 8.

Интервал [ ai; ai +1) Интервальная частота mi [-∞, а 2) т 1 [ а 2, а 3) т 2   … … [ а ν-1, а ν) т ν-1 [ а ν, +∞) т ν
pi теор р 1теор= Р (Х < а 2) р 2теор= Р (а 2 Х < а 3) р ν-1теор = = Р (а ν-1Х < а ν) р νтеор = = Р (Ха ν) = = 1 – р 1теор – … … - р ν-1теор
mi теор m 1теор = np 1теор m 2теор = np 2теор m ν-1теор = np ν - 1теор m νтеор = np νтеор

Обратим внимание на то, что в табл. 8 сумма теоретических вероятностей =1. Обратим также внимание на то, что критерий согласия можно использовать только в том случае, когда для каждого интервала mi теор≥ 5. Ин-тервалы, для которых это условие не выполняется, объединим с соседними. Новое число интервалов обозначаем, как и прежде, буквой ν.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: