Непараметрические испытания гипотез-критерий хи-квадрат

В прошлых разделах испытание касалось сравнения выборочной статистики с соответствующими генеральными параметрами. Для больших выборочных сово­купностей мы предпологали, что генеральные совокупности нормальны или при­близительно нормальны. Теперь мы будем рассматривать примеры испытаний гипотез, которые не требуют ни этого предположения, ни использования генераль­ных параметров. Эта группа испытании относится к непараметрическим испыта­ниям. Общая процедура испытания гипотез та же, что и для параметрических испытаний. Но расчет проверочной статистики другой.

Рассмотрим самый общий непараметрический критерий хн-квадрат. Это — метод сравнения ряда наблюдаемых частот с ожидаемыми частотами, если верна нулевая гипотеза. Мы будем использовать этот метод для проверки взаимосвязи признаков.

Признак — это характеристика переменной. Характеристики обычно относят к категории. Например цвет глаз — это признак человека, может быть отнесен к категориям: карие, голубые, серые или зеленые. Положение счетов клиентов в банке может быть отнесено к категориям: "всегда в кредите", "обычно в кредите", "часто превышает кредит", "постоянно в долгу"- Месячные суммы выручки от продажи товаров могут быть описаны как "высокие", "средние", "низкие".


Гл. 6. Статистический вывод 2: испытание гипотез _____________ 187

Предположим, нас интересуют две разные характеристики переменной и мы хотим знать существует ли между ними какие-либо связи. Например, у нас имеются данные по оценкам, полученным группой студентов на экзамене по бухгалтерско­му учету и на экзамене по математике. Нас интересует, существует ли связь между оценками, полученными на экзамене по бухучету и тем, сдали ли студенты или провалили экзамен по математике. Могут быть следующие категории:

Таблица 6.5. Пример таблицы сопряженности

Экзамен по математике Оценки по экзамену бух. учета
А В С Не сдали
Сдали Не сдали        

Число или частота студентов, которые сдали экзамен по математике и получи­ли оценку Л по бухгалтерскому учету, записано в верхней левой части таблицы. Число студентов, не сдавших математику и получивших оценку Л по бухгалтер­скому учету, записывается в нижней левой части таблицы и т.д. Такой тип таблицы называется таблицей сопряженности.

Таблица 6.5. имеет две строки и четыре столбца, т.е. является таблицей 2x4 (два на четыре). Используя соответствующую нулевую гипотезу, мы можем рассчитать число студентов, которое ожидается в каждой клетке. Если нулевая гипотеза верна, различия между наблюдаемыми и ожидаемыми частотами будут небольшие. Будем использовать те же правила для решения, как и в прошлом испытании. Проверочная статистика рассчитывается на основе разницы между наблюдаемыми и ожидаемыми частотами для всех клеток таблицы.

Если обозначить наблюдаемую частоту события f0 и ожидаемую частоту — fE, то (f0 - fg) — различия между наблюдаемой и ожидаемой частотами. Провероч­ной статистикой будет служить:

I

Возведение в квадрат разницы (f0 - fE) необходимо для того, чтобы избежать нулевого эффекта при суммировании отрицательных и положительных величин. К тому же, чтобы достичь независимости от значения фактических частот, квадра­ты отклонений делятся на ожидаемые частоты. Это нормализует все величины. Получаемая статистика подчиняется % -распределению при достаточно больших значениях ожидаемых частот. Ориентиром обычно служит условие:.

fE2 5.


188. Ч. 2. Анализ данных как составная часть принятия решений

Если одна или более ожидаемых частот меньше, чем 5, то категории должны быть скомбинированны до тех пор, пока частота не превысит установленного значения.

Для таблиц сопряженности 2 х 2, в которых сумма частот меньше или равна 100, иногда применяется корректировка — поправка Йетса. Тогда проверочная статистика вычисляется по следующей формуле:

*2=1

(|f„-fE|-0,5)2"

Такая поправка проводится потому, что х является непрерывным распределе­нием, а данные выборки - дискретные. В гл. 2 мы обсуждали необходимость такой корректировки при использовании нормального распределения для аппроксима­ции дискретного распределения. Для больших выборок разница между исправлен­ными и неисправленными величинами % является небольшой и в таких случаях корректировка не требуется.

Как мы установили в гл. 4, форма х2-распределения зависит от числа степеней свободы в данной задаче. При использовании таблиц сопряженности число степе­ней свободы равняется:

(г-1)(с-1).

где г и с — число строк и столбцов в таблице сопряженности. Если таблица имеет только одну строку, то число степеней свободы: (с - 1).

LJ Пример 6.17. Компания "Autosure pic" (товарищество с ограниченной ответ­ственностью) является крупной страховой компанией, специализирующейся на страховании автомобилей. Обычной политикой компании является начисление различных премий в соответствии с размером машины, которая страхуется. Чем больше машина, тем больше выплаты. Однако такая политика оказывается неправильной, поскольку руководители отделов сообщают о большой частоте заявлений о случаях личного ущерба для машин меньших размеров. Один из аналитиков компании исследовал данные из 566 недавно поступивших заявлений. Собранные данные представлены в таблице 6.6.

Таблица 6.6. Данные 566 ааявителей

Тип заявления Размер страхуемой машины
маленький средний большой
Есть личный ущерб Нет личного ущерба 120 149 57 105 42 93

Указывают ли данные на то, что частота заявлений о личном ущербе связана с размером страхуемой машины?


Гл. 6. Статистический вывод 2: испытание гипотез _________ 189


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: