Этот метод анализа связей используется в случае, когда как независимые переменные (факторы риска), так и зависимые переменные (показатели здоровья) являются порядковыми, качественными, или же количественными, но выраженными не в абсолютных значениях, а разбитыми на небольшое число категорий. Категоризованные данные представляются в виде частот наблюдений, соответствующих различным категориям исследуемых показателей. Исходные данные для анализа взаимосвязи между двумя переменными А и В представляются в виде так называемых таблиц сопряженности признаков, число строк которой равно числу градаций переменной А, число столбцов — числу градаций переменной В, а в ячейке на пересечении i -й строки с j-м столбцом стоит число nij, равное числу наблюдений, соответствующих i -й градации фактора А и j-й градации фактора В.
Пусть число градаций фактора А равно I, а число градаций фактора В равно J. Если верна нулевая гипотеза о независимости факторов А и В, то статистика
χ2 =
где eij — ожидаемое число наблюдений в ij -й ячейке — имеет χ2 -распределение с (I-1)(J-1) степенями свободы, поэтому критической областью для нулевой гипотезы при заданном уровне значимости α являются значения статистики χ2 превышающие квантиль порядка (I - α) для χ2 -распределения с (I - 1)(J - 1) степенями свободы.
|
|
Ожидаемое число наблюдений в ij -й ячейке при условии независимости факторов А и В равно сумме чисел наблюдений по i -й строке, умноженной на сумму чисел наблюдений по j -му столбцу и деленной на суммарное число наблюдений, поскольку если суммарное число наблюдений равно N, то
eij = N ∙ P(Ai|Bi).
Если события Аi и Вj независимы, то
P(Ai|Bi) = P(Ai)P(Bj).
причем вероятности событий Аi и Вj равны следующим выражениям:
P(Ai) =
P(Bj) =
Откуда и следует выражение для расчета ожидаемых значений числа наблюдений:
eij = N
Пример 15. Данные из примера 11 можно использовать для того, чтобы определить, существует ли взаимосвязь между загрязненностью окружающей среды и состоянием здоровья населения (табл. 4.8).
Таблица 4.8
Таблица сопряженности для показателей загрязнения окружающей среды
и состояния здоровья населения
Уровни состояния здоровья | Уровни загрязнения окружающей среды | Суммы по строкам | |
Незагрязненная территория | Загрязненная территория | ||
Очень плохое | 2(7) | 12(7) | |
Плохое | 18 (20) | 22 (20) | |
Удовлетворительное | 35 (38) | 41 (38) | |
Хорошее | 29 (24) | 19 (24) | |
Очень хорошее | 16(11) | 6(11) | |
Суммы по столбцам |
Примечание: в скобках приведены ожидаемые числа наблюдений для ячеек.
χ2 =
(I - 1)(J - 1) = 4 ∙ 1 = 4.
Для распределения χ2 с 4 степенями свободы табличное значение квантили порядка 0,99 равно 13,277. Таким образом, с 99 %-м доверительным уровнем, или с уровнем значимости α = 0,05, следует отвергнуть нулевую гипотезу, т.е. предположение о наличии связи между загрязнением окружающей среды и состоянием здоровья подтверждается имеющимися данными. Расчет статистики χ2 показывает, что основной вклад в нее вносят не центральные, а крайние значения показателя состояния здоровья.
|
|
Помимо анализа таблиц сопряженности, критерий χ2 имеет еще одну важную область использования — анализ соответствия между выборочным и теоретическим распределением. В этом случае диапазон изменений выборки разбивается на п интервалов и для каждого интервала определяется число попаданий в него выборочных значений. Ожидаемые числа попаданий для каждого интервала рассчитываются в соответствии с видом и параметрами теоретического распределения. Далее точно так же, как при анализе таблиц сопряженности, рассчитывается значение статистики χ2 с числом степеней (n — 1) и проводится её сравнение с квантилями распределения χ2 Для заданного уровня значимости.
Задача 6. Обследованы 2 группы людей с различным характером профессиональной деятельности. В группе из 40 обследуемых, чья работа связана с интенсивными эмоциональными нагрузками, различные проявления нарушений со стороны сердечно-сосудистой системы выявлены у 32 человек, тогда как среди 100 обследуемых, работающих в спокойной обстановке, такие нарушения выявлены у 10 человек. Проверить гипотезу о наличии связи между уровнем эмоциональной напряженности профессиональной деятельности и частотой сердечно-сосудистых нарушений, учитывая, что 95, 98, 99 и 99,9-процентные точки распределения χ2 с 1 степенью свободы равны соответственно 3,84, 5,41, 6,64 и 10,83.
Решение. Условия задачи можно представить в виде таблицы сопряженности 4.9.
Расчет ожидаемых чисел наблюдений:
e11 = 42 ∙ e12 = 42 ∙
e21 = 98 ∙ e22 = 98 ∙
χ2 =
Таблица 4.9
Нарушения сердечно-сосудистой системы | Профессиональный стресс | Суммы по строкам | |
Имеется | Отсутствует | ||
Имеются | |||
Отсутствуют | |||
Суммы по столбцам |
Полученная величина χ2-статистики превосходит критическое значение (10,93) для уровня значимости α = 0,001, т.е. использованные данные с высоким доверительным уровнем подтверждают гипотезу о связи нарушений сердечно-сосудистой системы с профессионально обусловленными эмоциональными нагрузками.