Коэффициенты детерминации

Иногда требуется определить, насколько вероятно, что из одного условия следует другое условие. Например, если 1-е условие «Курит ли респондент?», а 2-е – «Пьет ли этот респондент?», задача может быть сформулирована так: «Если респондент курит, то с какой вероятностью он еще и пьет?». Очевидно, что здесь требуется вычислить условную вероятность, которую Вы, возможно, изучали в курсе теории вероятностей.

Данные могут быть представлены в виде ответов некоторого количества респондентов на два вопроса с дихотомической шкалой, т.е. рассмотренным ранее образом. Даже если шкалы признаков не дихотомические, данные можно свести в следующую таблицу:

Число человек (a) у которых и 1-е, и 2-е условия выполнены. Число человек (b), у которых 1-е условие выполнено, но 2-е условие не выполнено.
Число человек (c), у которых 1-е условие не выполнено, а 2-е условие выполнено. Число человек (d), у которых и 1-е, и 2-е условия не выполнены.

В нашем примере таблица может выглядеть так:

40 человек которые и курят, и пьют. 60 человек, которые курят, но не пьют.
80 человек, которые не курят, но пьют. 100 человек, которые и не курят, и не пьют.

Иными словами, a=40, b=60, c=80, d=100.

Существует два коэффициента детерминации: интенсивность и емкость.

Интенсивность отражает условную вероятность и по определению равна:

Емкость показывает полноту выборки, т.е. какую долю респондентов, у которых выполнено 2-е условие, мы можем использовать для проверки требуемой условной вероятности. По определению емкость равна:

Емкость показывает еще и условную вероятность того, что из выполнения 2-го условия следует выполнение 1-го. Таким образом, сравнивая интенсивность и емкость, можно судить о направлении связи, или детерминации: первое условие определяет второе или 2-е условие определяет первое.

В нашем примере интенсивность равна , емкость равна .

Наиболее частая ошибка в вычислении емкости и интенсивности – неправильный выбор a, b и с. Разберем это на том же примере. Пусть требуется вычислить вероятность того, что если человек не пьет, то он и не курит. Число a составляют те 100 человек, которые и не пьют, и не курят (выполнены оба условия), b – те, которые не пьют, но курят (60 человек) (выполнено только 1-е), и т.д. Таблица примет такой вид:

100 человек которые и не пьют, и не курят. 60 человек, которые не пьют, но курят.
80 человек, которые пьют, а не курят. 40 человек, которые и пьют, и курят.

Интенсивность равна 100/(100+60)=0,625. Емкость равна 100/(100+80)=5/9=0,5555.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: