Чих крестьян

Получить высшее образование 57,5 51,0 1 3,5 —2,5 6,25

Получить интересную любимую 57,3 59,0 2 1 11

работу

Побывать в других странах 53,8 52,0 3 2 11

Создать себе хорошие жилищные 49,7 51,0 4 3,5 0,5 0,25

условия

Добиться хорошего материального 48,5 50,0 5 5 0 0

обеспечения

Повысить свою квалификацию 42,0 45,0 6 6 0 0

Получить среднее образование 22,6 32,0 7 7 0 0

Поехать на одну из новостроек 19,4 25,0 8 8 0 0

• Лисовский В. Эскиз к портрету. М., 1969, с. 42. Распределение респондентов в таблице при­ведено в процентах к численности групп «ив рабочих», «из крестьян» соответственно. По­скольку респонденты могли выбирать при опросе более чем один жизненный план, то сумма по столбцам не равна 100%.

Если подсчитать г, для каждой группы отдельно, то в первом случае, очевидно, г, — 1, а во втором г, = 0,15, по статистически не­значимо отличается от 0.

Значимость коэффициента корреляции Спирмена для I < 100 можно определить по табл. Г приложения, где приведены крити­ческие величины г,.

Если I > 100, то критические значения находятся по табл. А приложения. Наблюдаемые значения критерия вычисляются по

28 Если при рапжировании возникает иного одинаковых (или, как говорят, связанных) рангов, то формула (34) неприменима,

формуле

у п — 1

Например, возвращаясь к данным табл. 10, где I < 100, по табл. Г приложения найдем, что для того, чтобы г, был значим на уровне 0,01, он должен быть равен или превосходить 0,833. Эмпирическое значение г, = 0,9, и поэтому делается вывод, что имеется значимая связь между предпочтениями жизненных планов двух групп рес­пондентов. Аналогичным образом легко убедиться, что г, = 0,15 при I = 4 статистически незначим.

Коэффициент ранговой корреляции т Кендалла. Подобно г., ко­эффициент Кендалла используется для измерения взаимосвязи между качественными признаками, характеризующими объекты од­ной и той же природы, ранжированные по одному и тему же критерию, т изменяется от +1 до —1.

Для расчета та используется формула

т«" '/.£(?-В •. (36>

Как вычисляется 5, поясним на примере данных табл. 10.

Таблица упорядочена так, что в графе «Ранг I» ранги располо­жились в порядке возрастания их значений. Берем значение ранга, стоящего в графе «Ранг II» па первом месте, 3,5; из расположен­ных ниже данного ранга семи других четыре значения его превы­шают, а два — мепыне его. Число 4 записывается в графу S*, а 2 в колонку «S7'. Аналогичный подсчет делается для второго ранга со значением 1. Число рангов, расположенных ниже данного значения и превышающих его, равно 6, а число рангов, меньших Данного,— 0 и т. д. Остальные вычисления ясны из следующей таблицы:

sf s-sf-sr sf s~ s+-s-

4 2 2 3 0 3
6 0 6 2 0 2

5 0 5 10 1
4 0 4 0 0 0

Тогда, подставив соответствующие значения в формулу (36), по­лучим

_ 23 _ п Q

• ~ >/,-8(8-1) ~ ' '

Таким образом, т„ дает более осторожную оценку для степени связи Двух признаков, чем г,.

При расчете тв не учитывались равные ранги. Например, л табл. 10 имеются два равных ранга со значением 3,5. Если число

равных рангов велико, то необходимо вычислить т по следующей формуле;

«»°/fl *,, <37>

V[-Yi(i-i)-Tx\[-^ni-i)-Tv\

где Тх= l/2H>tx(tx 1) (£х— число равных рангов по первой пере­менной); Ту = 1/22 tytty— I) (£„ — число равных рангов по второй, переменной).

Для предыдущего примера tx=i, ty = 2, тогда Тх — 0, Г„=1.

Значимость коэффициента корреляции Кендалла т„ при I > 10 определяется по формуле

Z = 5 _-. (38)

Гипотеза о том, что т«= 0, будет отвергнута для данного а, если |Zl>ZBP(a/2).

Для вышеприведенного примера

z = 23 = = 2,84.

У -jg--8(8—1)(2,8 + 5)

По табл. А приложения для a = 0,05 находим ZKf(a/2), равное 1,96. Поскольку расчетное значение Z = 2,84 и, следовательно, боль­ше ZKP, заключаем с вероятностью 95%, что То^О.

Коэффициенты корреляции Спирмена и Кендалла используются как меры взаимозависимости между рядами рангов, а не как меры связи между самими переменными. Так, в табл. 10 ранги отражают иерархию жизненных планов, но совершенно не говорят о том, что дети рабочих почти в равной мере хотят получить как высшее образование, так и интересную работу (разница 0,2%), а дети крестьян в большей степени стремятся к высшему образованию (разница 8%). Кроме того, какая-нибудь из групп респондентов может считать, что выделенные категории вообще не отражают их жизненных планов, но проранжировали предложенные варианты. Если для целей исследования можно предположить эти моменты несущественными, то оправданно применение ранговой корреляции.

Коэффициенты Спирмена и Кендалла обладают примерно оди-паковыми свойствами, но т в случае многих рангов, а также при введении дополнительных объектов в ходе исследования имеет определенные вычислительные преимущества2*.

Другая мера связи между двумя упорядоченными переменны­ми — у- Она, так же как и предыдущие коэффициенты, изменяется

28 Описание мер взаимозависимости, обобщающих г, и т для таблиц любого размера с естественным упорядочением категорий в строках и столбцах, см.: Нендалл М. Дж., Стьюарт А. Статистические выводы и связи. М., 1973, с. 752—758. Для более детального знакомства со свойствами ранговых коэф­фициентов см.: Кендалл М. Ранговые корреляции. М., 1975.

от +1 до —1 и может быть подсчитана при любом числе связанных рангов. Формула для вычисления f записывается в виде

р+___ о—

»-lf+^- (39>

Для иллюстрации правил вычислепия Sf по сгруппированным дан­ным обратимся к примеру (табл. 11).

Таблица 11. Распределение ответивших на вопрос: «Устраивает ли Вас Ваша настоящая работа» — в зависимости от стажа работы в бригаде *

Стаж работы

Альтернативы 1_____________________ г„м»»

ответа I i I ьуияя

до 1 года | 12 года 2 —5 лет | 5 и более

Устраивает 194 146 389 119 848

Не устраивает 78 75 196 67 416

Сумма | 272 | 221 | 585 | 186 | 1264

* Данные ив исследования «Формирование трудового коллектива на промышленной пред­приятии», проведенного ИСИ АН СССР в 1982 г.

Процесс вычисления S+ и 5" наглядно представлен на схеме (схема 2).

+ ктй т I w I m I I m kivsj звз \ w | | w \ rvs \ЩЩ m

S = ____= _____ ___—-. -L.., ^^^^ —ТТТТ ТТРРГТТТТ + ————— ————- '" jyjyjTjw

7S [\"Щ\ \\'/Щш I 73 15 \WS 61 IB 75 195 67

194 I 146 I 339 kflffe I 194 I 146 ^Ж=1 119 1 I 194 %146U3B9 I 119

S~= тггтттг ттттттт пттттт = + гтттттттт тттптт =------------------- + ттттттт ===----------- '-------

16 15 196 67 76 75 196 67 16 15 196 67

ImiiiHIilninilllhiuillI I Illiiiiilllllnnilli I I Illniiilll I |

СХЕМА 2. Схема вычисления 5+ и S-

Так:

5+ = 194(75 + 196 + 67) + 146(196 + 67) + 389 • 67 = 130 709, S~ = 119(78 + 75 + 196) + 389(78 + 75) + 146 • 78 = 112 436. Подставляя эти величины в формулу для f, находим

•у = S+-S- = 0 07

Проверку статистической значимости проводят по формуле

Z-yV n(l-v') '

Гипотеза На о равенстве нулю коэффициента отвергается,.если Z>ZHp(a/2). Для ваших данных

7_„1 /" Л*+.9- _ n 07 I/ 130 709 + 112436- _ fl q?, £ - У у „(1-у*> ~ °.°7 К 1264(1-0,07)" - U>y7d'

Для a = 0,05 по табл. А приложения ZKP(q./2) = 1,96. Таким обра­зом, Z < ZKV, и, следовательно, у нас нет оснований отвергнуть гипотезу Но: f = 0, т. е. лишь в 5 % случаев следует ожидать, что Т будет отличен от нуля.

Множественный коэффициент корреляции W. Этот коэффициент, иногда называемый коэффициентом конкордации, используется для измерения степени согласованности двух или нескольких рядов про-ранжированных значений переменных.

Коэффициент W вычисляется по формуле

W= »»("-!). (40>

где к — число переменных; п — число индивидов или категорий, которые ранжируются; 5=2 (сумма рангов по строке — а)г; а — среднее из суммы рангов.

Таблица 12. Вычисление множественного коэффициента ранговой корреляции

Удовлетворенность по признакам А, Б, В

Респондент ----------------------- j--------------------- j Сумма рангом

______________ А | Б 1 В________________

1-й 1 2 1 4

2-й 3 4 5 12

3-й 5 5 4 14

4-й 4 3 3 10

5-й 2 1 2 5

я = 5 2 = 45

Для данных табл. 12 а = 45/5 = 9;

5 = (4-9)г+(12-9)2+(14-9)1 + (10-9)1+(5-9)2 = 76;

W - 32-5-(5>-1) U'04-

Значимость полученной величины W для п > 7 проверяется по критерию х2-

Х2= fr.g+i) (41)

со степенью свободы п — \. Для примера х2 = Ю)133, степень свобо­ды (и — 1) = 4. Для a = 0,05 из табл. Б приложения находим %2 =• ■= 9,488. Поскольку наблюдаемое значение х* больше критической

точки, отвергаем гипотезу о том, что не существует значимой связи между рассматриваемыми переменными30.

Коэффициенты взаимозависимости для номинального уровня из­мерения.

Связь в табл. 2X2. Простейшая задача о взаимозависимости возникает тогда, когда имеются два признака, каждый из которых принимает два значения (табл. 13).

Таблица 13. Распределение отношения к правилам уличного движения в за­висимости от пола

Пол

Отношение к правилам уличного __________________________ „

движения в течение месяца, % мужской [ женский_______

Нарушение 20 0 20

Соблюдение 30 50 80

Всего 50 50 100

Представим данные о группировке по этим двум признакам так:
\ В не В I Сумма

А а Ъ а+Ь

Не А с d с+ d

Сумма | а+с b+d \ п( либо 100%)

Для характеристики степени связи двух признаков применяется коэффициент Ф, определяемый формулой

Ф ■= ad~hc (42)

-]/(а-\-Ь)(а-\-с)(Ь.+ й)(с + й) ' '

Коэффициент Ф равен 0, если нет соответствия между двумя дихотомическими переменными, и равен 1 или —1, когда имеется полное соответствие между ними. В силу трудностей с интерпрета­цией знака коэффициента для катетеризованных (номинальных) переменных часто используют в анализе лишь абсолютную величи­ну— |Ф|. Ф легко интерпретируется, поскольку показано, что он представляет собой просто коэффициент корреляции г, если значе­ния каждой дихотомической переменной обозначить 0 и 1.

Как уже отмечалось, Ф вычисляется для категоризованных дан­ных, представляющих естественные дихотомии: пол, раса, и т. п. Приведение количественных переменных к дихотомическому виду связано с выбором граничной точки разделения (например, мужчи­ны до 30 лет и мужчины старше 30 лет). Искусственная дихотоми-зация, столь часто необходимая в конкретном исследовании при изучении взаимосвязи признаков, может привести к тому, что одна

* Более подробные сведения об обработке ранжировапных данных см.: ГОСТ 23554.2—81. Экспертные методы оценки качества промышленной продукции, М., 1982.

часть дихотомической переменной по своему воздействию будет бо­лее значима для одной связи, другая — для другой, а это даст оши­бочный результат.

Измерение связи в табл. с X к. Рассмотрим теперь более общую ситуацию, когда две переменные классифицированы на две или более категории. Запишем это таким образом;

пп nit... nlh nt.

ncl nci... nck nc.

n.\ re. j... w.ft n

где Пц частоты; nt. — маргинальные суммы частот по строкам; n.j — маргинальные суммы частот по столбцам. На с. 169—172 для выяс­нения отклонения от независимости распределения значений в по­добном случае использовался критерий /2. Однако сама величина X2 не очень подходит в качестве меры связи, поскольку сильно зависит от числа категорий.

Нормированным коэффициентом корреляции для таблицы с X к является коэффициент сопряженности Пирсона (Р);

Коэффициент Р — 0 при полной независимости признаков. Недо­статком его является зависимость максимальной величины Р от размера таблицы (максимум Р достигается при с = к, но сама гра­ница изменяется с изменением числа категорий). В связи с этим возникают трудности сравнения таблиц разного размера.

Чтобы исправить указанный недостаток, Чупров ввел другую величину:

Т = [-------- *!----- гг-УЧ 0<Г<1. (44)

[„[(С_1) -1)]'М ^ ^ v '

При с = к Т достигает +1 в случае полной связи, однако пе обла­дает этим свойством при к*?*с.

Коэффициент Крамера (К) может всегда достигать +1 незави­симо от вида таблицы:

Для квадратной таблицы коэффициенты Крамера и Чупрова совпа­дают, а в остальных случаях К>Т.

Величина х* быстро вычисляется с помощью формулы

*-й|4Н- (4в)

Вычисление коэффициентов Р, Т и К связано с теми же ограни­чениями на х*. которые сформулированы на с. 172.

Следующая группа коэффициентов связи для категоризовапных. данных основана на предположении, что если две переменные свя­заны, то информация об одной переменной может быть использо­вана для предсказания другой. Так, если предположить, что связь между полом индивида и его отношением к правилам уличного движения абсолютно детерминирована, то согласно табл. 13 либо-все мужчины были бы нарушителями, а женщины пет, либо наобо­рот. Поскольку это не так, то возникает несоответствие, или, как говорят, ошибка предположения абсолютной связи (обозначим вели­чину этой ошибки Ол).

С другой стороны, можно предположить, что два признака абсо­лютно не связаны, и нельзя на основе одной переменной предска­зать другую. Поскольку это тоже не так, то возникает ошибка пред­положения об отсутствии связи (О0).

°о - °л
Тогда величина — q---- может служить мерой относительного-

уменьшения ошибки при использовании информации об одной пе­ременной для предсказания другой.

Признак, на основе которого предсказывается другой' признак, будем называть независимой переменной, а предсказываемый — за­висимой.

Тогда для случая, когда зависимая переменная расположена по строкам таблицы (т. е. категории расположены по строкам), вычис­ляется коэффициент связи Хг;

с 2 max Лу — max n,

Кг~-------- „-шахи,,------- ' <4/>

где max п,} — наибольшая частота в столбце i; max n.} — наибольшая

I i

маргинальная частота для строк /.

Пример. Вычислим к, для данных табл. 13 в предположении, что пол независимая переменная, а отношение к правилам уличного движения — зависимая 1

У\ max п., — max л.

\ jtl j ц i ' _ 30 + 50 - 80 п

Аг ~~ л — max п. ~ 100 — 80 ~~ *

i ''

Таким образом, использование информации о поле обследован­ных для предсказания отношения к правилам движения не умень­шает относительной ошибки.

Если зависимая переменная — это категории столбцов таблицы, то совершенно аналогично предыдущему вычисляется н 2 max и у — max л4,

X. = -i=i—!----------!------, (48)

е я —max л. ' v '

i '

где max щ — наибольшая частота в строке /; max п(. — наибольшая

i

маргинальная частота для столбцов i.

Для нашего примера, когда пол зависимая переменная, Хс = 0,4, т. е. получаем 40%-ное уменьшение в ошибке, если используем от­ношение к правилам в качестве предсказывающей пол нарушителя.

Коэффициенты К и Кс имеют пределы изменения от 0 до 1. Чем ближе К или кс к 1, тем больше относительное уменьшение в ошиб­ке и большее соответствие (связь) между переменными. Эти коэф­фициенты могут быть использованы для таблиц любого размера.

В ряде случаев удобно использовать симметричную к:

Ясям - -Ц^. (49)

Разнообразив корреляционных коэффициентов продиктовано стремлением отразить реально существующее разнообразие типов связей в природе и обществе. Поэтому данное обстоятельство сле­дует рассматривать скорее как свидетельство достоинств статисти­ческого аппарата, заключающихся в гибкости и большой приспособ­ленности его к анализу сложнейших взаимосвязей в социальной области. Каждый корреляционный коэффициент приспособлен для измерения вполне определенного вида связи. Техника расчета и конструкция формулы одного и того же коэффициента могут изме­ниться в зависимости от того, какие (например, сгруппированные или несгруппированные) данные приходится анализировать. Срав­ните, например, различные варианты формул для парного коэффи­циента корреляции г. Таким образом, применение того или иного показателя определяется природой данных и формой их представ­ления. Требуемая степень точности также может существенно по­влиять на выбор способа расчета связи в каждом конкретном слу­чае. Обычно оценка пригодности той или иной формулы произво­дится с учетом следующих факторов:

1) природы данных (качественные или количественные нри-
знаки);

2) формы и типа зависимости (линейная или нелинейная, поло­
жительная или отрицательная связь);

3) требуемой точности расчетов (например, коэффициенты кор­
реляции рангов г, и т иногда могут использоваться вместо более
точных мер г и цг);

4) удобства при вычислении и сравнительной простоты интер­
претации;

5) трудностей технического порядка (имеется ли счетная техни­
ка или нужно вести расчеты вручную);

6) распространенности использования того или иного коэффици­
ента корреляции;

7) возможности сравнения различных коэффициентов.
Обычно предпочитают использовать наиболее распространенные

в практике социологических исследований коэффициенты, так как тем самым достигается возможность сравнения полученных резуль­татов с материалами других исследований.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: