Предположим, что у нас есть два качественных признака, характеризующие обследованных лиц. Занесем эти данные в таблицу сопряженности 35
Таблица 35. Таблица сопряженности
Первый признак (первая градация) | Первый признак (вторая градация) | Всего | |
Второй признак (первая градация) | Частота встречаемости a | Частота встречаемости b | a +b |
Второй признак (вторая градация) | Частота встречаемости c | Частота встречаемости d | с+d |
n1=a+c | n2=b+d | n =a+b+c+d |
Критерий хи-квадрат Пирсона вычисляется по формуле
(29)
Но для таблицы 2х2 более точные результаты дает критерий с поправкой Йетса
(30)
Его критическое значение находится для заданного уровня значимости α и числа степеней свободы f =(n-1)(m-1), где n и m число строк и число столбцов в таблице сопряженности (Приложение 5).
Если то Н(0) принимается,
В случае принимается Н(1)
Когда число наблюдений невелико и в клетках таблицы встречается частота меньше 5, критерий хи-квадрат неприменим и для проверки гипотез используется точный критерий Фишера. Процедура вычисления этого критерия достаточно трудоемка и в этом случае лучше воспользоваться компьютерными программами статанализа.
|
|
По таблице сопряженности можно вычислить меру связи между двумя качественными признаками – ею является коэффициент ассоциации Юла Q (аналог коэффициента корреляции)
(31)
Q лежит в пределах от 0 до 1. Близкий к единице коэффициент свидетельствует о сильной связи между признаками. При равенстве его нулю – связь отсутствует.
Аналогично используется коэффициент фи-квадрат (φ2)
(32)
В примере с беременными, страдающими преэклампсией, была получена следующая таблица сопряженности 36
Таблица 36. Данные к примеру
Н(0): наличие у беременной выраженного ожирения не влияет на риск возникновения преэклампсии Н(1): наличие у беременной выраженного ожирения увеличивает риск возникновения преэклампсии Выберем уровень значимости: α=0,05 для α=0,05 и f =(n-1)(m-1)=1 Т.к. принимается Н(1) Вывод: наличие у беременной выраженного ожирения статистически значимо (с вероятностью не менее 95%) увеличивает риск возникновения преэклампсии. А теперь рассмотрим клиническую значимость влияния фактора ожирения на протекание беременности. Из таблицы сопряженности можно посчитать, что доля лиц с ожирением среди тех, у кого нет преэклампсии, составляет 140/1660*100%=8,4%. Среди лиц с преэклампсией эта доля 26,5%, разница составляет 18,1%. Это выборочная разница и для нее необходимо определить 95% доверительный интервал. Как это сделать мы уже рассматривали. После расчетов получаем, что генеральная разница лежит в пределах от 13,8% до 22,4%. Даже нижний предел ДИ свидетельствует о клинической значимости этих различий.
Коэффициент ассоциации Юла Q =0,6 указывает на среднюю по силе связь между фактором риска и предродовым осложнением. Эти же данные, обработанные в программе STATISTICA (модуль «непараметрическая статистика, таблицы 2×2») Таблица 37. Результаты статобработки
|
Таблицы сопряженности могут иметь и более сложный вид, когда каждый признак имеет более двух градаций. Нулевая гипотеза заключается в отсутствии связи между этими признаками. Ниже приведен пример подобного случая – нужно выяснить есть ли взаимосвязь между профессией и обращаемостью к врачу.
Таблица 38. Таблица сопряженности 3х4
профессия | всего | ||||
обращаемость к врачу | строители | шахтеры | учителя | госслужащие | |
до 3 в год | |||||
от 4 до 6 в год | |||||
более 6 в год | |||||
всего |
Анализ таких таблиц также предпочтительно проводить с использованием компьютерных программ.