double arrow

Методы анализа данных


Впроцессе анализа данных осуществляются следующие опера­ций: расчет одномерного распределения признаков, построение группировок признаков, выявление зависимостей между признака­ми. |При обработке данных прежде всего выявляют одномерные Распределения признаков (частоты появления различных значений

этих признаков в полученном массиве данных). Например, в ходе

[47]

одного из массовых опросов 1993 г. было установлено, что полнос­тью доверяли правительству 5% респондентов, в основном доверя­ли 25%, не очень доверяли 36%, совсем не доверяли 25% (осталь­ные затруднились ответить). На основе изучения этого распределе­ния можно получить лишь предварительную информацию об отно­шении к правительству. Для всесторонней его оценки важно выяс­нить специфику распределения ответов на указанный вопрос у представителей различных социальных групп, включенных в вы­борку исследования: руководителей, специалистов, предпринимате­лей, военнослужащих, рабочих, учащихся, студентов, пенсионеров, безработных. Первым шагом на этом пути служит построение таб­лиц сопряженности (двумерных распределений) признаков. Анализ этих распределений обнаруживает, что руководители и служащие управленческого аппарата сильнее доверяют правительству, чем, например, рабочие, а среди последних преобладают люди, одно­значно не доверяющие правительству. Это уже более точная харак­теристика отношения населения к правительству. На основе дву­мерных распределений признаков можно строить различные груп­пировки опрошенных в соответствии с их социальными характе­ристиками (профессия, квалификация, доход, образование и пр.). В итоге получаются простые и комбинированные таблицы данных, а также графики, диаграммы, гистограммы и др.

Однако все эти процедуры на самом деле представляют собой лишь подготовку к настоящему анализу данных. Главное в этом анализе — выявление зависимостей между признаками. Основны­ми методами изучения зависимостей являются анализ статистичес­ких таблиц, корреляционный, факторный, кластерный анализ и многомерное шкалирование.

Анализ статистических таблиц основан на оценке отсутст­вия/наличия взаимосвязи признаков по критерию хи-квадрат [Ра­бочая книга социолога, 194—195] и вычислении стандартизованных остатков (величин, которые указывают на степень отклонения на­блюдаемых частот от ожидаемых) [ Сатаров Г.А. Структура полити­ческих диспозиций россиян // Российский монитор. Архив совре­менной политики. Вып. 1. 1992. С. 145]. Вычисление критерия хи-квадрат и стандартизованных остатков осуществляется с помощью пакета 8Р88 (опции: 8т.ат.1г.1с8\сго881аЪ$). Показателем наличия взаи­мосвязи признаков служит значение критерия хи-квадрат, превы­шающее табличное [Рабочая книга социолога, 507; Мангейм и Рич, 519] для соответствующего числа степеней свободы — ^(зна­чение выдается 8Р85 в результатах (оигрш.) вместе со значением хи-квадрат) и уровня значимости. Принимаются во внимание аб­солютные значения остатков, превышающие 1,65. Это служит ин-

[48]

дикатором существования значимой статистической зависимости между изучаемыми признаками. Знак «плюс» в стандартизованных остатках свидетельствует о том, что реальное количество наблюде­ний больше ожидаемого, знак «минус» — о том, что оно меньше ожидаемого. Следует учитывать, что величина стандартизованных остатков указывает лишь на вероятность наличия линейной зави­симости между изучаемыми переменными, но не на направление и интенсивность этой зависимости.

Рассмотрим особенности использования данной процедуры на примере анализа таблицы сопряженности альтернатив ответа на вопрос о возрасте респондентов и альтернатив ответа на вопрос о голосовании за избирательные объединения на парламентских вы­борах 19 декабря 1999 г. (табл. 1).

Таблица 1 Взаимосвязь электоральных предпочтений и возраста респондентов

Объединение Величина Возраст респондента Всего
18-34 35-44 45 и старше
«Единство» Наблюдаемая частота
Ожидаемая частота 56,0 100,4 96,6 253,0
Стандартизованный остаток +0,7 +0,4 -0,9  
ОВР Наблюдаемая частота
Ожидаемая частота 13,7 24,6 23,7 62,0
Стандартизованный остаток -0,7 +1,9 -1,4  
КПРФ Наблюдаемая частота
Ожидаемая частота 29,7 53,2 51,2 134,0
Стандартизованный остаток -4,3 -2,1 +5,4  
СПС Наблюдаемая частота
Ожидаемая частота 33,0 59,1 56,9 149,0
Стандартизованный остаток +3,5 0,0 -2,6  
«Яблоко» Наблюдаемая частота
Ожидаемая частота 37,0 66,3 63,8 167,0
Стандартизованный остаток -1,1 +1,9 -1,1  

Источник: Опрос населения Санкт-Петербурга, проведенный ЦЭПИ СПбГУ в ноябре 2000 г. Таблица построена с помощью статистического пакета 8Р88.

[49]

Проверка взаимосвязи отобранных нами переменных по крите­рию хи-квадрат свидетельствует о ее наличии (наблюдаемое значе­ние критерия хи-квадрат (116,158) выше табличного (45,315) для #=20 и уровня значимости 0,001). Анализ стандартизованных ос­татков дает более сложную картину. Так, у «Единства» во всех воз­растных группах зафиксированы статистически незначимые вели­чины стандартизованных остатков. На этой основе можно сделать вывод о том, что в данном исследовании связь между возрастом и голосованием за «Единство» не наблюдается. У КПРФ и СПС за­фиксирована диаметрально противоположная картина: в группе от 18 до 34 лет стандартизованные остатки составляют: у КПРФ -4,3, а у СПС +3,5. В группе 45 и старше: +5,4 и -2,6 соответственно. Это означает, что в младшей возрастной группе намного меньше, чем в старшей, тех, кто голосовал за КПРФ, и намного больше тех, кто голосовал за СПС. Голосование за ОВР и «Яблоко» в младшей и старшей возрастных группах характеризуется практи­ческим отсутствием статистически значимых различий. За эти пар­тии в основном голосовали представители средней возрастной группы (величина остатков составляет в обоих случаях +1,9).

Результаты анализа статистических таблиц дают возможность сформулировать гипотезы относительно взаимосвязи признаков изучаемого явления, нуждающихся в дополнительной проверке с помощью статистических методов, о которых пойдет речь далее.

Корреляционный анализ основан на расчете отклонения значений изучаемого признака от линии регрессии (от лат. гееге88ю — воз­врат, в данном случае — возврат к средней) — условной линии, к которой эти значения тяготеют. Чем больше разброс значений, тем слабее связь двух интересующих нас признаков. Чем меньше раз­брос значений, тем сильнее связь (рис.1).

[50]

Корреляция (от лат. согге1атло — соотношение) — это статисти- I ческая взаимозависимость между признаками изучаемого явления. Корреляционный анализ представляет собой математическую про­цедуру, с помощью которой изучается эта взаимозависимость. Он заключается в вычислении коэффициентов корреляции — чисел, знак и величина которых характеризуют направление (прямая/об­ратная) и интенсивность/тесноту (строгая, сильная, умеренная, слабая, нулевая) взаимозависимости. Показателем интенсивности связи служит значение коэффициента. Считается, что если он равен 1, то взаимозависимость признаков является строгой (пол­ной); если его значение находится в интервале от 1 до 0,8, то это свидетельствует о сильной их взаимозависимости; если в интервале от 0,7 до 0,3 — об умеренной (неярко выраженной) взаимозависи­мости, а если же оно лежит в интервале от 0,2 до 0,0, то мы имеем дело со слабой или нулевой взаимозависимостью [Кимбл, 174—178; Тюрин и Макаров, 289]. Есть мнение, что в социологических ис­следованиях значения коэффициентов корреляции выше 0,5 встре­чаются не очень часто, поэтому можно принимать во внимание те из них, которые равны или превышают 0,3 [Статистические мето­ды анализа информации..., 97], т. е. характеризуют умеренную вза­имосвязь признаков.

Следует отметить, что коэффициенты корреляции выражают не / причинную (обусловленность одного признака другим), а функцио-1 налъную (взаимная согласованность изменения признаков) зависи­мость между признаками [Рабочая книга социолога, 198]. Различа­ют парную (между двумя признаками) и множественную (между несколькими признаками) корреляции.

Для изучения взаимосвязи признаков, измеренных с помощью различных типов шкал, используются разные коэффициенты кор­реляции. На порядковом уровне измерения признаков наиболее широко применяется коэффициент ранговой корреляции Спирме-на, на интервальном уровне обычно используется коэффициент корреляции Пирсона. Коэффициент Спирмена равен +1, когда два ряда проранжированы строго в одном порядке, -1, когда два ряда проранжированы в строго обратном порядке, и равен нулю при полном взаимном беспорядочном расположении рангов.

Коэффициент корреляции Пирсона равен +1 при строгой (пол­ной) прямой взаимозависимости двух признаков (увеличе­ние/уменьшение значений одного признака сопровождается увели­чением/уменьшением значений второго признака). Он равен -1 при строгой (полной) обратной взаимозависимости (увеличе­ние/уменьшение значений одного признака сопровождается умень-

[51]

шением/увеличением значений второго признака). Наконец, вели­чина этого коэффициента равна нулю при отсутствии взаимозави­симости признаков. Об интерпретации значений коэффициентов корреляции, отличных от 1 и 0, говорилось в начале этого пара­графа.

В качестве примера корреляционного анализа можно привести статью А. Ослона и Е. Петренко «Факторы электорального поведе­ния: от опросов к моделям» (Вопросы социологии. 1994. № 5. С. 7—9). Авторы провели анализ связей между голосованием опреде­ленных групп избирателей за разные партии и блоки на базе все­российского опроса ФОМ (декабрь 1993 г.). В данной статье при­водятся значения парных коэффициентов корреляции Пирсона для основных политических партий и блоков (табл. 2).

Таблица Таблица 2 Взаимосвязь голосования за различные партии иблоки

Партия, блок КПРФ «Выбор России» «Яблоко» ЛДПР
КПРФ 1,0 -0,57 -0,32 + 0,08
«Выбор России» -0,57 1,0 + 0,36 -0,53
«Яблоко» -0,32 + 0,36 1,0 -0,63
ЛДПР + 0,08 -0,53 -0,63 1,0

Авторы отмечают, что высокие значения (больше 0, 4) коэффи­циента корреляции свидетельствуют о наличии линейной связи между голосованием за сравниваемые партии и блоки. Знак «минус» означает, что чем больше голосов определенная группа избирателей отдает за одну из сравниваемых партий, например за «Яблоко», тем меньше она отдает голосов за другую, например за ЛДПР (г = - 0,63). Знак «плюс» означает, что чем больше голосов группа избирателей отдает одной партии, например «Выбору Рос­сии», тем больше она отдает голосов и другой сравниваемой пар­тии, например «Яблоку» (г = +0,36). Значения г < 0,4 свидетельст­вуют лишь о слабой выраженности линейной связи между голосова­нием за разные партии, но это не исключает наличия другой формы связи (нелинейной).

В статье подчеркивается, что сам факт положительной или от­рицательной корреляции говорит только о возможном механизме перераспределения голосов избирателей между партиями и блока­ми, а не о сходстве или различии их политических позиций. Эти наблюдения в определенной мере подтверждаются результатами корреляционного анализа голосования за партии и блоки по ито-

[52]

гам парламентских выборов 1995 г., проведенного А.Е. Любаревым [Любарев А.Е. Корреляционный анализ результатов парламентских выборов 1995 года // Политические исследования. 1996. N° 5. С. 117—129]. Автором статьи были получены значения коэффици­ентов корреляции, приведенные в табл. 3.

ТаблТаблица 3 Взаимосвязь голосования за различные партии и блоки

Партия, блок КПРФ ДВР «Яблоко» ЛДПР
КПРФ 1,0 -0,34 -0,45 + 0,15
ДВР -0,34 1,0 + 0,67 -0,60
«Яблоко» -0,45 + 0,67 1,0 -0,48
ЛДПР + 0,15 -0,60 -0,48 1,0

Как правило, на признаки изучаемого явления влияет множест­во причин, поэтому для выявления полной картины недостаточно только анализа парных корреляций, нужна группировка этих кор­реляций и выявление на этой основе комплексов скрытых (латент­ных) переменных, которые называются факторами (рис. 2).

Переменные П1 П2 ПЗ П4 П5 П6 П7 П8 П9

Факторы Ф1 Ф2

Рис. 2. Графическая структура факторного анализа

Необходимость факторного анализа обусловлена тем, что мы не можем воспринимать большое число сопоставляемых пар призна­ков и вынуждены прибегать к помощи вычислительной техники. Факторный анализ основан на измерении доли влияния каждого из выделенных нами комплексов (независимых) переменных на изме­нение изучаемых признаков явления (зависимых переменных) и обнаружении причинной обусловленности этих изменений. Факторы выражают внутренние (скрытые) свойства системы переменных, характеризующих изучаемое явление.

Исходной информацией факторного анализа служит матрица \ (система чисел, размещенных в прямоугольной таблице в виде п столбцов и т строк) парных коэффициентов корреляции [Харман, 33] всех отобранных нами переменных. На основе матрицы выяв-

[53]

ляются скопления переменных, тесно связанных друг с другом и слабо связанных с переменными, входящими в другие скопления. Эти скопления переменных образуют факторы (рис. 3).

Первый фактор (горизонтальная ось графика) образуют пере­менные, характеризующие ориентации на коммунизм или либера­лизм. Второй фактор (вертикальная ось графика) образуют ориен­тации на власть или оппозицию. Следует учесть, что данная струк­тура существовала в сознании населения Санкт-Петербурга на мо­мент опроса (ноябрь 2000 г.). Со временем эта конфигурация пере­менных может измениться.

Целью факторного анализа служит выявление так называемой простой структуры. Согласно Терстоуну, эта структура должна удовлетворять следующим условиям [Харман, 114]:

1. В каждой строке факторной матрицы должно быть хотя бы одно нулевое значение (нулевыми считаются также значения, пер­вый разряд которых начинается с 1).

2. В каждом столбце факторной матрицы число нулевых значе­ний должно быть не меньше числа факторов.

3. В каждой паре столбцов должно быть несколько переменных, которые имеют значения, равные нулю в одном из столбцов и не равные нулю — в другом.

4. В каждой паре столбцов имеется мало переменных, значения которых в обоих из них отличны от нуля.

[54]

В качестве примера такой структуры можно привести результа­ты факторного анализа данных упомянутого выше опроса населе­ния Санкт-Петербурга (табл. 4).

Таблица 4 Примерный вид «простой структуры»*

Переменные Компоненты
Коммунистические +0,771 -0,411 +0,310 -0,192
Либеральные -0,202 +0,796 -0,473 0,000
Взгляды Зюганова +0,731 -0,337 +0,412 -0,142
Взгляды Путина +0,434 0,000 +0,721 -0,398
Взгляды Хакамады -0,477 +0,662 0,000 0,000
Взгляды Яковлева +0,275 -0,176 +0,795 +0,321
Взгляды Явлинского 0,000 +0,866 0,000 +0,279
«Единство» -0,730 0,000 0,000 -0,174
«Отечество—Вся Россия» -0,106 - 0,601 - 0,708 0,000
КПРФ +0,872 -0,210 0,000 -0,376
СПС -0,627 +0,679 +0,237 +0,104
«Яблоко» +0,452 +0,132 -0,754 +0,379

* В таблицу включены переменные, характеризующие приверженность взглядам и голосование за избирательные объединения на парламентских выборах 19 декабря 1999 г. Анализ выполнен с помощью пакета 8Р85, методом главных компонент.

Переменные для факторного анализа отбираются в соответствии с определенными критериями. Считается, что эти переменные должны быть измерены с помощью интервальной шкалы [Фактор­ный, дискриминантный и кластерный анализ, 63]. Для порядковых переменных не существует факторных моделей, поскольку опера­ции сложения для них невозможны. Надо иметь в виду, что в дан­ном случае «допускается лишь эвристическое использование таких моделей без статистической интерпретации резулътатов»(курсш мой. — ТА.) [Там же]. Это значит, что можно подвергать фактор­ному анализу переменные, измеренные с помощью порядковых шкал, однако в данном случае нельзя оперировать собственными значениями факторов и определять более и менее значимые фак­торы.

[55]

На порядковом уровне с помощью факторного анализа можно лишь устанавливать кластерную структуру переменных [Там же, 65]. Часто предполагается, что порядковым переменным можно присваивать числовые значения, не нарушая их внутренних свойств. Например, можно присвоить числовые значения 5, 4, 3, 2, 1 позициям порядковой шкалы: целиком согласен, согласен, безразличен, не согласен, полностью не согласен. «Если искаже­ния корреляций, вносимые при шкалировании порядковых пере­менных, не слишком велики, вполне законно использовать эти переменные в качестве числовых» [Там же, 63]. В отечественной социологии такие случаи встречаются довольно часто. Считается, что если основой факторного анализа служит матрица корреляций, а данные, полученные на порядковых шкалах, позволяют подсчи­тывать коэффициенты корреляции, то это дает право использовать факторный анализ, но с учетом отмеченного выше ограничения — недопустимости статистической интерпретации собственных значе­ний выделенных факторов. Здесь приходится ограничиваться лишь выявлением распределения переменных по скоплениям (класте­рам).

Существует множество методов факторного анализа. Наиболее часто используется метод главных компонент. В нем факторы яв­ляются линейными функциями от наблюдаемых переменных. Зада­ча в данном случае заключается не в объяснении корреляций между переменными, а в объяснении доли каждого скопления не­зависимых переменных в дисперсии (отклонении от средней) ин­тересующей нас зависимой переменной. В процессе факторного анализа определенная последовательность наблюдаемых перемен­ных преобразуется в другую последовательность. Сначала вычисля­ются парные коэффициенты корреляции между переменными и строится корреляционная матрица, которая образует основу фак­торного анализа. Затем последовательно строится матрица компо­нент. При двухфакторном анализе первая компонента определяет­ся таким образом, чтобы в ней содержалась максимальная доля дисперсии изучаемой переменной. Вторая компонента определяет­ся аналогичным образом, но ее ось должна располагаться перпен­дикулярно первой. Выделенные компоненты должны объяснять не менее 50% суммарной дисперсии изучаемой переменной (напри­мер, мотивации голосования за определенного кандидата в прези­денты). При трехфакторном анализе принцип определения главных компонент тот же самый, что и при двухфакторном: ось второй компоненты располагается перпендикулярно первой, ось третьей компоненты — перпендикулярно двум первым (рис. 4). Анализ проведен с помощью пакета 8Р88.

[56]

Число переменных, отобранных для факторного анализа, долж­но превышать число факторов не менее, чем в два раза. В каждом факторе должно быть не менее трех переменных с максимальными значениями коэффициентов [Факторный, регрессионный и клас­терный анализ, 28, 67].

На первом этапе анализа определяется минимальное число фак­торов, адекватно воспроизводящих наблюдаемые корреляции. После этого осуществляется процедура вращения, с помощью кото­рой устанавливаются легко интерпретируемые факторы. Графичес­кий способ вращения заключается в проведении новых осей, кото­рые обеспечивают воспроизводство вышеупомянутой простой структуры. Если после вращения обнаруживаются скопления точек (значений переменных), явно отделенных друг от друга, то это оз­начает, что нам удалось провести оси через эти скопления.

Аналитический способ вращения осуществляется на основе оп­ределенного объективного критерия. Этот способ включает два вида вращения: ортогональное и косоугольное. Наиболее часто ис­пользуется ортогональное вращение с помощью метода варимакс (поиск максимальных значений 1-го фактора). Метод основан на Упрощении описания столбцов факторной матрицы, в результате него достигается лучшее разделение факторов (четче выделяется главный фактор). Целью любого способа вращения является полу-

[57]

чение наиболее простой факторной структуры, которая легче под­дается содержательной интерпретации.

Число факторов определяется с помощью различных критериев:

1. Критерий собственных чисел: отбираются факторы с собст­
венными числами, превышающими 1, остальные не принимаются
во внимание.

2. Критерий воспроизводимой дисперсии: обычно отбирают факторы, объясняющие 50 — 60% общей дисперсии изучаемой переменной.

3. Критерий отсеивания: на графическом изображении собст­венных чисел корреляционной матрицы заканчивают отбор на том факторе, после которого кривая принимает вид, близкий к гори­зонтальному (рис. 5).

[58]

Знаки «плюс» и «минус» факторных значений интерпретируют­ся как увеличение или уменьшение значения переменной, т.е. про­сто как разные направления. «Знак факторных нагрузок сам по себе не имеет внутреннего содержания и не несет информации о зависимости между переменной и фактором. Однако стоит сопо­ставлять знаки разных переменных при одном факторе» [Фактор­ный, дискриминантный и кластерный анализ, 67]. Факторные на­грузки меньше 0,3 считаются несущественными [Там же, 60]. Ин­терпретация факторов сводится к анализу величины и знаков на­грузок. Рассмотрим эту процедуру на примере приведенного выше двухфакторного решения (см. рис. 3). Два вьщеленных фактора объясняют 61% дисперсии и включают переменные, указанные в табл. 5.

Таблица 5 Значения переменных после вращения*

Переменные Факторы
Взгляды Зюганова - 0,823 +0,368
Взгляды Пугина - 0,454 +0,777
Взгляды Хакамады +0,776 +0,202
Взгляды Яковлева -0,340 +0,679
Взгляды Явлинского +0,627 +0,261
«Единство» +0,443 -0,151
«Отечество—Вся Россия» - 0,232 - 0,872
КПРФ -0,842 0,000
СПС +0,884 +0,366
«Яблоко» 0,000 -0,642
Коммунистические взгляды -0,898 +0,258
Социал-демократические взгляды +0,427 0,000
Либеральные взгляды +0,708 -0,187

* Матрица получена методом главных компонент в пакете SPSS.

Выпишем наибольшие значения переменных по выделенным факторам. Фактор 1: отрицательное направление (взгляды Зюгано­ва, коммунистические взгляды, КПРФ), положительное направле­ние (взгляды Хакамады, либеральные, СПС). Фактор 2: отрица­тельное направление (ОВР, «Яблоко»), положительное направление (взгляды Путина, Яковлева). Содержание первого фактора состав-

[59]

ляет идеологический раскол (коммунисты — либералы), содержа­ние второго фактора — политический раскол (власть — оппози­ция). При интерпретации этих данных следует учитывать, что пе­тербургские сторонники ОВР и «Яблока» в основном голосовали против Путина на президентских выборах 2000 г., а само петер­бургское отделение «Яблока» (Региональная партия центра) нахо­дилось в оппозиции губернатору Яковлеву. Эти расколы определя­ли политическое поведение населения Санкт-Петербурга в 2000 г. (факторный анализ осуществлен на основе данных общегородского опроса, проведенного ЦЭПИ СПбГУ в ноябре 2000 г.). \ Кластерный анализ (от англ. с1и$1ег — пучок, группа) — это про­цедура, позволяющая классифицировать различные объекты. С его помощью можно разбить респондентов на группы, сходные по ряду признаков. На дендрограмме «дерева признаков» признаки соединяются линиями, образуя отдельные пучки («ветви»), связан­ные с другими пучками («ветвями»). Эти пучки и называют клас­терами. Чем короче линия, связьшающая переменные, тем ближе они находятся в пространстве признаков. В процессе кластериза­ции происходит объединение сходных объектов во все более слож­ные группы («разветвление»). Кластерный анализ представляет собой разновидность многомерной статистической процедуры, упорядочивающей объекты в относительно однородные группы. Переменные для кластерного анализа выбираются в соответствии с теорией (концепции, гипотезы), которая лежит в основе классифи­кации [Факторный, дискриминантный, кластерный анализ, 153]. Перед началом анализа они должны быть преобразованы в бино­минальные, принимающие значение «1» при наличии признака и «0» при его отсутствии. В статистическом пакете SPSS эта опера­ция осуществляется в опции: 1гап$Гогт\гесоде. Кроме того, из ана­лиза следует исключить альтернативы: «затрудняюсь ответить», «другое» и пр.

Важную роль в кластерном анализе играют «меры сходства». Наиболее часто в качестве такой меры употребляется коэффициент корреляции Пирсона, первоначально использовавшийся для опре­деления зависимости переменных. Кластеры обладают рядом свойств, среди которых наиболее важными являются плотность, дисперсия, форма, отдельность. Плотность — это близость отдель­ных точек скопления, позволяющая отличать его от других облас­тей многомерного пространства, содержащих либо мало точек, либо не содержащих их совсем. Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера. От­дельность характеризует взаимное расположение скоплений точек в пространстве [Там же, 165—166]. Кластеры можно рассматривать

[60]

как «непрерывные области пространства с относительно высокой плотностью точек, отделенные от других таких же областей облас­тями с относительно низкой плотностью точек» [Там же, 166].

Наиболее известными методами кластерного анализы являются методы одиночной, полной и средней связи, а также метод Уорда [Там же, 191]. Метод Уорда (\УагсР8 те1под) позволяет создавать кластеры приблизительно равных размеров [Там же, 171]. Он сна­чала объединяет самые близкие объекты, затем к уже образован­ным кластерам присоединяются сходные с ними объекты. Мерой сходства в данном случае является 1 — коэффициент корреляции Пирсона.

На основе анализа содержания переменных, входящих в отдель­ные кластеры, строится группировка респондентов по признакам, включенным в процесс кластеризации. Рассмотрим эту процедуру на примере (рис. 6)*

0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8

Рис. 6. Дендрограмма мотивов голосования за кандидатов в Президенты России на выборах 1996 г.

Условные обозначения переменных: персональные электоральные предпочтения рес­пондентов на президентских выборах 1996 г. (Ельцин, Зюганов, Явлинский); моти­вация этих предпочтений (1.1. «Он мне нравится», 1.2. «Не хочу перемен», 2.1. «Меня устраивает его программа», 2.2. «Он знает, как решить проблемы страны», 3.1. «Я ему доверяю», 3.2. «Ему нет достойной замены»); мотивация голосования за списки политических партий на парламентских выборах 1995 г. (4.1. «Они заставят правительство думать о народе», 4.2. «Они смогут решить проблемы страны», 4.3. «Устраивает программа партии»). Анализ выполнен с помощью пакета «Statistica» по методу Уорда.

Кластерный анализ основных альтернатив ответа на вопрос о том, за кого намерены голосовать (опрос проводился в мае 1996 г.) респонденты («Ельцин», «Зюганов», «Явлинский»), и вопрос о мо­тивах предстоящего голосования позволили обнаружить особые

[61]

структуры мотивации электорального выбора у сторонников от­дельных кандидатов в Президенты России на выборах 1996 г. (см.: перечни мотивов в кластерах Ельцина, Зюганова и Явлинского).

Многомерное шкалирование представляет собой процедуру, с по­мощью которой оценивается степень сходства/различия между переменными. С его помощью мы можем представить набор изу­чаемых переменных в виде скоплений точек (каждой переменной соответствует одна точка). Этот метод позволяет находить в масси­ве данных комплексы сходных друг с другом и отличающихся друг от друга переменных. В геометрическом пространстве сходные переменные (тесно связанные между собой в сознании респонден­тов) располагаются близко друг от друга и образуют скопления точек, отделенные пустым пространством от других скоплений сходных переменных. Чем больше сходства зафиксировано у изу­чаемых переменных, тем ближе находятся обозначающие их точки на графике. Чем меньше сходства наблюдается у включенных в анализ переменных, тем дальше друг от друга располагаются соот­ветствующие им точки на графике.

Данный метод дает возможность наглядно (на графике) пред­ставить множество переменных и увидеть особенности их конфи­гурации в геометрическом пространстве (чаще всего в двумерном). Подобная процедура используется при сопоставлении значительно­го числа переменных, которое трудно анализировать без визуализа­ции. Перед началом многомерного шкалирования осуществляется процедура преобразования переменных в биноминальные, как и в кластерном анализе.

Рассмотрим пример такой визуализации на основе набора пере­менных, характеризующих идентификацию респондентов с различ­ными взглядами (источник данных тот же, что и в примечании к рис. 6).

На графике рис. 7 видны четыре группы точек, отделенных друг от друга пустым пространством. Эти группы располагаются в рамках двух измерений. Первое измерение основано на противо­поставлении власти и общественности, второе — на противопо­ставлении коммунизма и либерализма. Эти оппозиции наблюда­лись в политическом сознании населения Санкт-Петербурга в конце 2000 г.

Специфическим методом обработки социологической информа­ции является вторичный анализ данных. Он применяется для полу­чения дополнительной информации по уже прошедшему первич­ную обработку массиву данных. Обычно вторичный анализ ис­пользуют при повторной обработке результатов «чужих» или собст­венных исследований. Можно выделить два типа вторичного ана-

[62]

Рис. 7. Конфигурация переменных в пространстве двух измерений* (политическая идентификация и партийные предпочтения на выборах)

лиза: монографический и сравнительный. В первом случае осу­ществляется повторный анализ одного массива первичных данных, во втором — сопоставляются несколько массивов первичных дан­ных (например, электронные таблицы данных в системе 8Р88), полученные отдельными социологическими центрами в разное время, на разных выборках и по различным программам. Разно­типность исследований и используемых в них переменных порож­дает необходимость их стандартизации как условия сопоставимос­ти результатов исследований [Социальные исследования: постро­ение и сравнение показателей. М., 1978. С. 134—139].

Сопоставлять можно лишь однородные переменные, но для обеспечения этой однородности нужно, чтобы сравниваемые пер­вичные данные по этим переменным были получены на однотип­ных выборках, одинаковыми методами и с помощью однотипных шкал. Если у нас нет информации о том, кого и как репрезенти­рует выборка, какие методы были использованы для сбора и ана­лиза данных, как были сформулированы вопросы и какие альтер­нативы предлагались респондентам для ответа на них, то вторич­ный анализ становится невозможным.

Нельзя в строгом смысле слова назвать вторичным анализом часто используемое сопоставление частотных распределений внеш­не сходных переменных, взятых из отчетов по итогам массовых опросов населения, опубликованных в научных изданиях или газе­тах. Как правило, в этом случае авторы не выясняют степень

* Многомерное шкалирование выполнено с помощью пакета SPSS, опции: statistics\scale\multidimensional scaling.

[63]

однородности сравниваемых массивов информации, а между тем за каждым числовым значением признака стоит определенное ка­чество. Не выяснив, насколько однородна качественная определен­ность переменных, отобранных из разных массивов данных, мы не можем их сопоставлять.

Для проведения вторичного анализа необходимо изучить описа­ние выполненных исследовательских проектов, по которым имеет­ся первичная информация в существующих отечественных и зару­бежных архивах данных [см., например: Банк социологических данных, 1990 (Информационные ресурсы социологических центров СССР). М., 1990; Международный журнал социальных наук. Май. 1995. № 9. Европейские базы данных по социальным наукам); Мангейм Дж.-Б., Рич Р.-К. Политология. Методы исследования. М., 1997. С. 220—221]. В архивах нужно отобрать необходимые массивы данных, получить разрешение на их использование от ру­ководства соответствующих центров и, сделав с них копии файлов, провести вторичный анализ.

Можно выделить несколько видов сравнительного вторичного анализа: сравнительно-типологический (синхронный), или анализ первичных данных исследований, проведенных в одно и то же время; сравнительно-генетический (диахронньш), или анализ ре­зультатов исследований, проведенных в разное время. В любом случае предварительное изучение переменных с целью определения степени их однородности и пригодности для сравнения представ­ляет собой обязательное условие вторичного анализа. Важно отме­тить и то, что в процессе вторичного анализа мы, по существу, мысленно воспроизводим все этапы сопоставляемых исследований и одновременно осуществляем самостоятельное исследование, в ходе которого концептуализируем изучаемую проблему, выдвигаем собственные гипотезы, операционализируем понятия и т.д. Вто­ричный анализ означает новое, дополнительное исследование ста­рых массивов первичных данных.


Сейчас читают про: