Коэффициент ассоциации и контингенции

Методы изучения связи социальных явлений

Оценка социальных явлений осложняется тем, что многие социальные явления не имеют количественной оценки. Информационной основой такого анализа служат данные социологических, маркетинговых исследований на базе анкетирования, опросов и т. д. (Например, обследование организаций по качеству и себестоимости услуг, где себестоимость определяется качественной оценкой (низкая, средняя, высокая) или обследование организаций по уровню доходов в зависимости от уровня специального образования).

Количественная оценка связей социальных явлений осуществляется на основе расчета и анализа целого ряда коэффициентов.

При исследовании степени тесноты связи между качественными признаками, каждый из которых представлен в виде альтернативного признака, используют коэффициент ассоциации или коэффициент контингенции. Для их вычисления строится таблица, которая показывает связь между двумя явлениями, каждое из которых должно быть альтернативным (например, высокий - низкий, хороший - плохой и т.д.).

a b a+b
c d c+d
a+c b+d a+b+c+d

Коэффициенты вычисляются по формулам:

Ассоциации:

Контингенции:

Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь подтверждается если Ka³0,5 или KK³0,3.

Например, необходимо оценить наличие связи между работниками организации, распределенными по полу и содержанию работы. Результаты исследований приведены в таблице.

Работа Мужчины Женщины Всего
Интересная 300 (а) 201 (b)  
Неинтересная 130 (с) 252 (d)  
Итого      

Коэффициент ассоциации (КA) определяется по формуле:

;

В тех случаях, когда хотя бы один из четырех показателей в «таблице четырех полей» отсутствует, величина коэффициента ассоциации будет равна единице, что дает преувеличенную оценку степени тесноты связи между признаками, и предпочтение следует отдать коэффициенту контингенции (КK):

Т.о. можно сделать вывод, что содержание работы не зависит от того, к какому полу относится работник.

Если каждый из качественных признаков состоит из большого числа групп (более двух), то для определения тесноты связи возможно применение коэффициентов взаимной сопряженности Пирсона и Чупрова.

Для данных коэффициентов необходимо составить таблицу взаимной сопряженности:

X\Y I II III Всего
I     nxy nx
II       nx
III       nx
Итого ny ny ny n

;

где - показатель взаимной сопряженности ; nxy - частота каждой клетки таблицы взаимной сопряженности; nx, ny -итоговые частоты соответствующих строк и столбцов; К1 , К2 – число строк и столбцов..

В качестве примера исследуем связь между качеством и себестоимостью услуг связи.

Качество услуг Себестоимость услуг Итого обследованных организаций
Низкая Средняя Высокая
Низкое 23 (13) 13 (17) 14 (20)  
Среднее 10 (13) 25 (17) 15 (20)  
Высокое 7 (13) 12 (17) 31 (20)  
Итого        

Тогда коэффициенты взаимной сопряженности Пирсона и Чупрова равны:

КП =; КЧ =и свидетельствуют о наличие умеренной связи между уровнями качества и себестоимости услуг связи.

Чем ближе величины КП и КЧ к 1, тем теснее связь.

Коэффициенты взаимной сопряженности Пирсона и Чупрова можно вычислить используя критерий «хи-квадрат». Если признак, положенный в основу группировки по строкам таблицы (качество услуг), не зависит от признака, положенного в основу группировки по столбцам (себестоимость услуг), то в каждой строке (столбце) распределение частот должно быть пропорционально распределению их в итоговой строке (столбце). Такое распределение можно рассматривать в известной мере в качестве теоретического.

f11 = 40*50/150 = 13; f12 = 50*50/150 = 17; f13 = 60*50/150 = 20

f21 = 40*50/150 = 13; f22 = 50*50/150 = 17; f33 = 60*50/150 = 20

f31 = 40*50/150 = 13; f32 = 50*50/150 = 17; f33 = 60*50/150 = 20

Расчетное значение

Где fэ и fТ соответствующие эмпирические и теоретические частоты. К – число групп

Тогда

На основе критерия «хи-квадрат» определяются показатели степени тесноты связи — коэффициенты взаимной сопряженности К. Пирсона и А. Чупрова. Коэффициент взаимной сопряженности К, Пирсона рассчитывается по формуле:

=

где п — общее число наблюдений:

Коэффициент взаимной сопряженности А. Чупрова позволяет учесть число групп по каждому признаку и определяется следующим образом:

=

где К1 и К2 – число строк и столбцов в таблице, n – число наблюдений.

Если требуется оценить тесноту связи между альтернативным и количественным признаками, то рассчитывается биссериальный коэффициент корреляции:

где и  - средние в группах;  - среднее квадратическое отклонение фактических значений признака от среднего уровня; p- доля первой группы, q – доля второй группы; Z - табличные значения z - распределения в зависимости от p.

В качестве примера рассмотрим зависимость уровня доходов работников организации связи от уровня специального образования.

Уровень образования Уровень доходов, тыс. руб. Всего
6-10 (8) 10-14 (12) 14-18 (16)
Имеют специальное высшее образование        
Не имеют специального образования        
Итого        

 = (8*5 + 12*10 + 16*15)/30 = 13,3 тыс. руб.

 = (8*10 + 12*6 + 16*4)/20 = 10,8 тыс. руб.

 = (8*15 + 12*16 + 16*19)/50 = 12,3 тыс. руб.

 = ; p = 30/50 = 0,6; q = 20/50 = 0,4

Zтабл = 0,4973

Величина биссериального коэффициента корреляции доказывает, что уровень доходов работников тесно связан с наличием специального образования.

Многофакторный корреляционно-регрессионный анализ

Задача многофакторного корреляционно-регрессионного анализа заключается:

1) в изучении факторов, которые оказывают влияние на исследуемый показатель и отборе наиболее значимых;

2) в определении степени влияния каждого фактора на результативный признак путем построения модели — уравнения множественной регрессии. Уравнение множественной регрессии позволяет установить, в каком направлении и на какую величину изменится результативный показатель при изменении каждого фактора входящего в модель;

3) в количественной оценке тесноты связи между результативным признаком и факторными.

Математически задача состоит в нахождении функции

От правильного выбора функции регрессии зависят результаты теоретического анализа и возможность их применения на практике.

Построение моделей множественной регрессии включает следующие этапы:

1) выбор формы связи (уравнения регрессии) путем перебора нескольких аналитических функций;

2) отбор значимых факторных признаков (опирается на сравнение частных коэффициентов эластичности, b-коэффициентов, D-частных коэффициентов детерминации);

3) обеспечение достаточного объема совокупности для получения несмещенных оценок (их количество должно быть в несколько раз больше, чем число факторов, включаемых в модель. На каждый фактор должно приходиться, как минимум, 5-6 наблюдений.

1) Сложность выбора функции состоит в том, что результативный признак с разными факторами может находиться в различных формах связи— прямолинейных и криволинейных. Эмпирическое обоснование типа функции с помощью графиков парных связей практически непригодно для множественной корреляции и регрессии.

Выбор формы уравнения множественной регрессии основывается на теоретическом анализе изучаемого явления.

Практика многофакторного регрессионного анализа социально-экономических явлений показывает, что для описания их взаимосвязей можно использовать пять типов моделей:

линейная

степенная

показательная

параболическая

гиперболическая

Чаще всего останавливаются на линейных моделях. Это объясняется тем, что параметры линейных уравнений легко интерпретируются, а сами модели просты и удобны для экономического анализа.

2) Проблема отбора факторных признаков для построения моделей взаимосвязи может быть решена используя сравнительный анализ частных коэффициентов эластичности Эi, b-коэффициентов и частных коэффициентов детерминации Di.

Также часто используется метод пошаговой регрессии, состоящий в последовательном включении факторов в модель и оценке их значимости. Факторы поочередно вводятся в уравнение. При введении фактора определяется, насколько увеличивается величина множественного коэффициента корреляции R. Если при включении в модель фактора xiвеличина R увеличивается, а коэффициент регрессии аi не изменяется или меняется незначительно, то данный фактор существенен и его включение в модель необходимо. Одновременно используется и обратный метод, т.е. исключение факторов, ставших незначимыми на основе t-критерия Стьюдента.

Наличие между двумя факторами весьма тесной линейной связи (линейный коэффициент корреляции г превышает по абсолютной величине 0,85) называется коллинеарностью, а между несколькими факторами — мультиколлинеарностью.

Причины возникновения мультиколлинеарности между признаками состоят, во-первых, в том, что анализируемые признаки характеризуют одну и ту же сторону явления или процесса (например, уставной фонд и численность работников характеризуют размер предприятия) и включать их в модель одновременно не целесообразно; во-вторых, факторные признаки являются составными элементами друг друга, дублируют друг друга или их суммарное значение дает постоянную величину (например, энерговооруженность и фондовооруженность, удельный вес заемных и собственных средств).

Если в модель включены мультиколлинеарные факторы, то уравнение регрессии будет неадекватно отражать реальные взаимосвязи, будут искажены величины параметров модели (завышены) и затруднена экономическая интерпретация коэффициентов регрессии и корреляции.

Поэтому при построении модели исключают один из коллинеарных факторов исходя из качественного и логического анализа.

В уравнении множественной регрессии в линейной форме параметры а1, а2, аз,..., аn коэффициенты регрессии, показывают степень влияния соответствующих факторов на результативный признак при закреплении остальных факторов на среднем уровне, т.е. насколько изменится у при увеличении соответствующего фактора xi на 1 пункт его единицы изменения;

параметр а0 — свободный член, экономического смысла не имеет.

Параметры уравнения множественной регрессии, как и парной, рассчитываются методом наименьших квадратов на основе решения системы нормальных уравнений. Для линейного уравнения регрессии с п факторами строится система из (n+1) нормальных уравнений:


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: