Коэффициенты связи двух номинальных признаков: основанные на критерии “Хи-квадрат”, на моделях прогноза. Коэффициенты связи для 4-х-клеточных таблиц

Критерий хи-квадрат имеет несколько разновидностей:

1. Likelihood Ratio (Отношение правдоподобия). Данный критерий является более устойчивым к объему выборки, чем хи-квадрат.

2. Linear-by-Linear Association (Линейно-линейная связь). Данная разновидность критерия хи-квадрат подходит только для количественных переменных.

Меры связи, основанные на критерии «Хи-квадрат».

Меры связи – коэффициент позволяющий оценить силу направление связей для номинальных признаков.

Коэффициент сопряженности признаков (Пирсона)

Его величина всегда находится в пределах от 0 до 1 и вычисляется (как и значения критериев Фишера (<р) и Крамера (V)) с использованием значения критерия хи-квадрат: Здесь N — общая сумма частот в таблице сопряженности. Так как N всегда больше нуля, коэффициент сопряженности признаков никогда не достигает единицы. Максимальное значение зависит от количества строк и столбцов таблицы сопряженности и в таблице размером 3*2 составляет (как в данном примере) 0,762. По этой причине коэффициенты сопряженности признаков для двух таблиц с разным количеством полей несопоставимы. Contingency Coefficient (Коэффициент Контингенции). Эта мера применима для любой таблицы, так как ее значения всегда лежат между 0 и 1, тем не менее, она имеет по сравнению с коэффициентом «фи» другой недостаток. Коэффициент контингенции никогда не может достичь верхней границы, равной единице. Максимально возможное значение такой меры зависит от числа строк и столбцов таблицы. Например, для таблицы 4´4 максимальное значение коэффициента контингенции равно только 0,87.

Критерий Фишера (<р)

Этот коэффициент можно использовать только для таблиц 2*2, так как в других случаях он может превысить значение 1:

Критерий Крамера (V)

Этот критерий представляет собой модификацию критерия Фишера и для любых таблиц сопряженности он дает значение в пределах от 0 до 1, включая 1:

Здесь k — наименьшее из количеств строк и столбцов.

Три названных критерия основаны на использовании критерия хи-квадрат. Они различными способами нормируют его значение по отношению к размеру выборки. Так, если формуле для V Крамера положить k = 2, то значения (р и V Крамера совпадут. Определение значимости основано на значении критерия хи-квадрат.

При оценке полученных значений мер связанности, находящихся в нашем примере в промежутке между 0,4 и 0,5, следует учесть, что значение 1 достигается очень редко или вообще никогда. Другие меры связанности (Я, т Гудмена-Крускала и коэффициент неопределенности) определяются на основе так называемой концепции пропорционального сокращения ошибки. При определении этих критериев одна переменная рассматривается как зависимая; по этой причине данные критерии называются "направленными мерами".

Коэффициент Пирсона c2

Коэффициент p принимает значение, равное нулю, как и все остальные коэффициенты, основанные на c2-статистике, тогда и только тогда, когда отмечается полная независимость признаков. Однако использование данного коэффициента является абсолютно корректным по всем позициям только для таблиц 2´2. В этом случае коэффициент Пирсона p равен стандартному коэффициенту корреляции. Для таблиц размером больше двух он может принимать значения больше единицы, так как критерий c2 принимает значение, превышающее значение объема выборки


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: