Анализ категоризованных данных

Этот метод анализа связей используется в случае, когда как независимые переменные (факторы риска), так и зависимые переменные (показатели здоровья) являются порядковыми, качественными, или же количественными, но выраженными не в абсолютных значениях, а разбитыми на небольшое число категорий. Категоризованные данные представляются в виде частот наблюдений, соответствующих различным категориям исследуемых показателей. Исходные данные для анализа взаимосвязи между двумя переменными А и В представляются в виде так называемых таблиц сопряженности признаков, число строк которой равно числу градаций переменной А, число столбцов — числу градаций переменной В, а в ячейке на пересечении i -й строки с j-м столбцом стоит число nij, равное числу наблюдений, соответствующих i -й градации фактора А и j-й градации фактора В.

Пусть число градаций фактора А равно I, а число градаций фактора В равно J. Если верна нулевая гипотеза о независимости факторов А и В, то статистика

χ2 =

где eij — ожидаемое число наблюдений в ij -й ячейке — имеет χ2 -распределение с (I-1)(J-1) степенями свободы, поэтому критической областью для нулевой гипотезы при заданном уровне значимости α являются значения статистики χ2 превышающие квантиль порядка (I - α) для χ2 -распределения с (I - 1)(J - 1) степенями свободы.

Ожидаемое число наблюдений в ij -й ячейке при условии независимости факторов А и В равно сумме чисел наблюдений по i -й строке, умноженной на сумму чисел наблюдений по j -му столбцу и деленной на суммарное число наблюдений, поскольку если суммарное число наблюдений равно N, то

eij = N ∙ P(Ai|Bi).

Если события Аi и Вj независимы, то

P(Ai|Bi) = P(Ai)P(Bj).

причем вероятности событий Аi и Вj равны следующим выражениям:

P(Ai) =

P(Bj) =

Откуда и следует выражение для расчета ожидаемых значений числа наблюдений:

eij = N

Пример 15. Данные из примера 11 можно использовать для того, чтобы определить, существует ли взаимосвязь между загрязненностью окружающей среды и состоянием здоровья населения (табл. 4.8).

Таблица 4.8

Таблица сопряженности для показателей загрязнения окружающей среды

и состояния здоровья населения

Уровни состояния здоровья Уровни загрязнения окружающей среды Суммы по строкам
Незагрязненная территория Загрязненная территория
Очень плохое 2(7) 12(7)  
Плохое 18 (20) 22 (20)  
Удовлетворительное 35 (38) 41 (38)  
Хорошее 29 (24) 19 (24)  
Очень хорошее 16(11) 6(11)  
Суммы по столбцам      

Примечание: в скобках приведены ожидаемые числа наблюдений для ячеек.

χ2 =

(I - 1)(J - 1) = 4 ∙ 1 = 4.

Для распределения χ2 с 4 степенями свободы табличное значение квантили порядка 0,99 равно 13,277. Таким образом, с 99 %-м доверительным уровнем, или с уровнем значимости α = 0,05, следует отвергнуть нулевую гипотезу, т.е. предположение о наличии связи между загрязнением окружающей среды и состоянием здоровья подтверждается имеющимися данными. Расчет статистики χ2 показывает, что основной вклад в нее вносят не центральные, а крайние значения показателя состояния здоровья.

Помимо анализа таблиц сопряженности, критерий χ2 имеет еще одну важную область использования — анализ соответствия между выборочным и теоретическим распределением. В этом случае диапазон изменений выборки разбивается на п интервалов и для каждого интервала определяется число попаданий в него выборочных значений. Ожидаемые числа попаданий для каждого интервала рассчитываются в соответствии с видом и параметрами теоретического распределения. Далее точно так же, как при анализе таблиц сопряженности, рассчитывается значение статистики χ2 с числом степеней (n — 1) и проводится её сравнение с квантилями распределения χ2 Для заданного уровня значимости.

Задача 6. Обследованы 2 группы людей с различным характером профессиональной деятельности. В группе из 40 обследуемых, чья работа связана с интенсивными эмоциональными нагрузками, различные проявления нарушений со стороны сердечно-сосудистой системы выявлены у 32 человек, тогда как среди 100 обследуемых, работающих в спокойной обстановке, такие нарушения выявлены у 10 человек. Проверить гипотезу о наличии связи между уровнем эмоциональной напряженности профессиональной деятельности и частотой сердечно-сосудистых нарушений, учитывая, что 95, 98, 99 и 99,9-процентные точки распределения χ2 с 1 степенью свободы равны соответственно 3,84, 5,41, 6,64 и 10,83.

Решение. Условия задачи можно представить в виде таблицы сопряжен­ности 4.9.

Расчет ожидаемых чисел наблюдений:

e11 = 42 ∙ e12 = 42 ∙

e21 = 98 ∙ e22 = 98 ∙

χ2 =

Таблица 4.9

Нарушения сердечно-сосудистой системы Профессиональный стресс Суммы по строкам
Имеется Отсутствует
Имеются      
Отсутствуют      
Суммы по столбцам      

Полученная величина χ2-статистики превосходит критическое значение (10,93) для уровня значимости α = 0,001, т.е. использованные данные с высоким доверительным уровнем подтверждают гипотезу о связи нарушений сердечно-сосудистой системы с профессионально обусловленными эмоциональными нагрузками.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: