Включение понятия прогноза в представление о связи между номинальными признаками представляется разумным: наверное, трудно возражать против того, чтобы признаки считали связанными, если значение одного признака позволяет достаточно хорошо предсказать значение другого.
Предположим, что мы изучаем жителей некоторого крупного города N от 20 лет и старше и что нас интересует связь между признаком “возраст”, рассматриваемым нами как номинальный и дихотомическим признаком со значениями “студент” – “не студент”.
Коэффициенты связи, основанные на понятии энтропии.
Семейство коэффициентов, к рассмотрению которых мы переходим, основаны на такой модели связи, которая очень близка по своему содержательному смыслу к прогнозным моделям. В основе этих коэффициентов также лежит сравнение безусловного распределения с условными (условие – фиксация значения независимосго признака Х). Но сравнение это ведется не с точки зрения того, насколько при переходе от безусловного распределения к условным меняется качество возможного прогноза, а с точки зрения изучения изменения степени неопределенности рассматриваемых распределений. Здесь мы, как и в п. 1.3.5, вступаем в область теории информации и будем использовать ее терминологию.
|
|
В определенном смысле противоположным понятию энтропии является понятие информации, к рассмотрению которого мы переходим. Приобретение информации сопровождается уменьшением неопределенности, поэтому количество информации можно измерять количеством исчезнувшей неопределенности, т.е. степенью уменьшения энтропии.
Коэффициенты связи для четырехклеточных таблиц сопряженности.
Четырехклеточные таблицы – это частотные таблицы, построенные для двух дихотомических признаков.