Проблема соотнесения формального и содержательного при формировании представлений о закономерности в социологии

Ясно, что используя математический аппарат для решения тех или иных практических задач, мы всегда имеем дело не с самой реальностью, а лишь с некоторой ее моделью. А модель уже в силу того, что она модель, не может не содержать элементов формализации реальности. В какой-то степени это очевидно. И если бы речь шла об естествознании или технике, то мы не стали бы здесь говорить о заявленной в заголовке проблеме. Для удовлетворения потребностей естественных наук были разработаны такие методы, которые опираются на модели, в достаточной степени похожие на реальность (или, во всяком случае, достаточно хорошо отражающие представления исследователя об этой реальности). Это подтверждается тем, что прогнозы, осуществляемые на основе использования математических методов, обычно оправдываются. Другими словами, степень приближения модели к реальности оказывается достаточной для удовлетворения потребностей практики. Так, строитель при постройке дома рассчитывает нагрузку на какую-то балку, не задумываясь о том, что “работает” при этом не с самой балкой, а с некоторой ее формульной моделью. Более или менее ясно, что с чем здесь соотносится, и грамотно выполненные расчеты обеспечивают эффективность соответствующего модельного подхода.

Не та ситуация в социологии (и других общественных науках). Сложность соответствующих явлений влечет сложность формализации наших представлений о них. Модели реальности, которые мы фактически строим, используя тот или иной метод анализа данных, оказываются чересчур приблизительными, соответствующие прогнозы не сбываются и т.д. Эти модели настолько субъективны, что исследователь все время рискует получить результаты, плохо отражающие реальность. Поэтому он должен постоянно отслеживать, какой моделью вольно или невольно пользуется, думать о соотнесении формального и содержательного.

И начинается этот процесс с формирования самых первичных, зачастую весьма смутных, представлений социолога о том, что он, собственно, должен изучать. Ниже мы попытаемся описать подобные начальные шаги. При этом ограничимся рассмотрением лишь некоторых принципиальных моментов – таких, без учета которых немыслим эффективный анализ социологических данных и, прежде всего, - выбор метода анализа. Подчеркнем, однако, для действительно успешного анализа необходимо более глубокое изучение вопроса; здесь очень много не решенных проблем.

Заметим, что, в соответствии с логикой построения настоящей работы, все сказанное ниже в настоящем параграфе нужно было бы отнести в раздел 5, специально посвященный специфике поиска статистических закономерностей именно в социологии. Там и пойдет речь о чем-то схожем – о “приспособлении” известного формализма анализа данных к конкретной исследовательской ситуации; а здесь – в основном о том, как в сознании социолога рождается сама потребность прибегнуть к формализму.

Итак, мы предполагаем, что общество развивается в соответствии с некоторыми закономерностями, на изучение которых и направлены интересующие нас действия социолога. Судить же об этих закономерностях он может только на основе имеющихся в его распоряжении данных, которые можно расценивать как результаты измерения (заметим, что, когда такими результатами служат числа, вместо термина “измерение” часто используют термин “шкалирование”), как модель (чаще всего – математическую) реальности. Начнем с рассмотрения основных принципов построения этой модели. По существу речь пойдет о некоторых аспектах формирования и операционализации понятий. Можно также сказать, что мы коснемся проблемы интерпретации данных, подлежащих анализу.

Прежде всего, “усмотрим” в исходных данных как бы два уровня: множество скрывающихся за ними реальных объектов (отдельных людей, социальных групп, институтов и т.д.) во всей их уникальности и неповторимости и получающуюся в результате непосредственного сбора данных совокупность отражающих эти объекты формальных конструктов: чисел, текстов и т.п. Описанные уровни можно расценивать как содержательный и формальный аспекты данных. Сразу подчеркнем, что термин “содержательный” здесь употреблен в значительной мере условно: когда исследователь приходит к выводу о необходимости изучать именно такие-то объекты, он уже имеет в своем сознании некоторые, иногда весьма сложные и всегда – субъективные, представления о том, почему он это делает; и эти представления бывают основаны на том, что в объектах усматривается нечто общее, т.е. на отказе от их “уникальности и неповторимости” (обычно это общее выражается в описании всех объектов значениями каких-то выбранных исследователем признаков). Детальное изучение истоков такого происходящего в сознании человека процесса абстрагирования от реальности не входит в наши задачи. Отметим лишь, что этот процесс не отделим от формирования представлений об объекте и предмете исследования (надеемся, что читателю очевидно различие трактовок термина “объект” в сочетаниях “реальные изучаемые объекты” и “объект исследования”; ср. сноску 4). Будем полагать, что совокупность соответствующих априорных представлений социолога, не предполагающих не только абстрагирования от уникальности изучаемых объектов, но и, может быть, самого вычленения этих объектов (предполагается, однако, что в дальнейшем эти представления будут служить базой для такого вычленения), образуют фрагмент априорной содержательной модели (второй фрагмент этой модели связан с априорными представлениями исследователя об изучаемых закономерностях, он рассмотрен ниже).

Содержательный и формальный уровни исходных данных отвечают определенным этапам процесса измерения. При анализе данных мы используем последние в их формальном виде. Но эффективный анализ может быть осуществлен лишь на основе грамотного соотнесения формального аспекта данных с содержательным, более того, - с соответствующим фрагментом априорной содержательной модели. Задумавшись же о том, каким образом можно перейти от содержательных рассмотрений к формальным, мы наверняка придем к выводу, что существует еще один, промежуточный, этап процесса измерения. Он отвечает тому логическому вычленению в многоцветной реальности, ассоциируемой с предметом исследования, и изучаемых объектов, и их отдельных сторон, которое связано с формированием и операционализацией понятий, т.е. с выбором конкретных объектов измерения и способов сбора данных. Этот этап можно считать фрагментом построения концептуальной модели реальности(второй фрагмент этой модели связан с выбором алгоритма анализа результатов измерения и будет рассмотрен ниже)14.

Отметим, что в действительности вопрос о построении концептуальной модели, отвечающей процессу измерения очень сложен. Формируя понятия, лежащие в основе наших представлений о виде измеряемых признаков, мы должны решать множество вопросов о взаимопонимании респондента и исследователя, о том, каким образом опрашивать людей (скажем, выбрать степень “жесткости” опроса), задействовать или нет те или иные “хитрые” способы шкалирования и т.д. При использовании “жестких” методов необходимо определить точный набор значений измеряемых признаков, расположение соответствующих вариантов ответов в анкете, структуру преамбулы к вопросу и т.д. Применяя “мягкие” методы, необходимо решить огромное количество весьма сложных вопросов, связанных с кодированием получаемых текстов, усматриванием общих свойств у разных респондентов (чтобы перейти к анализу данных, необходимо перейти к “мышлению признаками”).

Здесь же – определение тех объектов, для которых будет непосредственно осуществляться измерение (построение и корректировка выборки), решение ряда проблем, связанных с реализацией процедуры измерения (например, учет влияния интервьюера на результат опроса) т.д. и т.п.

Отметим также, что именно на этапе построения концептуальной модели рассматриваются вопросы, связанные с построением эмпирической и математической систем, о которых пойдет речь в п. 2.2. Соответствующие рассмотрения – это взгляд на весь процесс концептуализации с другой, пока не использованной нами точки зрения – точки зрения теории измерений. Этот взгляд является необходимым, если исследователь хочет обеспечить адекватность используемого для анализа данных математического аппарата характеру решаемой социологической задачи.

Реализация выбранных способов сбора данных приводит нас к фрагменту формальной модели реальности (второй фрагмент будет получен в результате реализации метода анализа данных).

Итак, в процессе интерпретации подлежащих непосредственному анализу формальных данных мы выделили их содержательный, концептуальный и формальный (как правило, - математический) аспекты. Они отвечают построению априорной содержательной, концептуальной и формальной модели реальности в процессе измерения. Аналогичные аспекты можно выделить и в понимании искомой закономерности. Попытаемся это сделать.

Как отмечалось в п.1.1, именно в качестве исходных данных (здесь добавим - в их формальном виде) выступают перед исследователем те факты, характер которых объясняется действием искомых закономерностей. Другими словами, эти закономерности как бы являются "причинами" того, что наши факты имеют заданный вид. Скажем, если наши формальные данные, набор фактов – это измеренные для ряда регионов страны уровни безработицы и число суицидов на 1000 жителей, то специфический характер этих фактов может состоять, например, в том, что с ростом безработицы, как правило, наблюдается увеличение доли суицидов; а "причина" такого вида фактов – в том – что материальная необеспеченность людей толкает их к самоубийству15. Однако эти "причины" остаются для нас латентными. В явном виде они выступают перед нами как закономерности другого рода – некие формальные соотношения, связывающие отдельные элементы формальных же данных друг с другом. В нашем примере это может быть близость к единице коэффициента корреляции между используемыми переменными.

Первые закономерности назовем содержательными (термин "содержательный" здесь тоже можно использовать лишь условно, и степень условности – еще б о льшая, чем условность использования того же термина в выражении "содержательный аспект исходных данных"; мы огрубляем ситуацию; уже само использование исследователем понятия "закономерность" означает наличие в его сознании некой модели), вторые – формальными. Можно сказать, что формальная закономерность служит для нас статистическим подтверждением правильности нашего предположения о существовании содержательной закономерности. Представления о содержательных закономерностях являются вторым фрагментом упомянутой выше априорной содержательной модели. Найденные же в результате анализа данных формальные закономерности – вторым фрагментом формальной модели.

Нетрудно видеть, что между содержательной и формальной закономерностью тоже стоит некоторая концептуальная модель реальности. Во всем многоцветье реальных взаимодействий наблюдаемых объектов друг с другом мы вычленяем соотношения, которые называем, к примеру, наличием связи между рассматриваемыми понятиями (имея в виду понятия, выделенные при построении концептуальной модели, задействованной в процессе измерения). Эти соотношения должны, в частности, дать нам основания для выбора конкретного способа анализа данных, конкретного формализма, отвечающего постановке нашей содержательной задачи. Подобные соотношения имеет смысл назвать концептуальной моделью изучаемой закономерности. Таким образом, выбор метода – часть построения концептуальной модели искомой закономерности.

Процесс концептуализации представлений социолога об искомых закономерностях нельзя оторвать от построения описанной выше “измерительной” концептуальной модели. Само понимание закономерности непосредственным образом замыкается на то, какие понятия мы выбрали для изучения, как их операционализировали и т.д. Ниже будем говорить о построении единой концептуальной модели реальности, предшествующем анализу данных (точнее, являющемся его не всегда осознаваемой частью). В аналогичном, "объединительном", смысле будем использовать термины "априорная содержательная модель" и "формальная модель".

Чтобы логически завершить наши рассуждения, отметим, что выбором и реализацией конкретного алгоритма анализа данных работа социолога по поиску интересующих его закономерностей, конечно, не кончается (заметим, что мы здесь не говорим об этапе непосредственной реализации метода, поскольку здесь социолог не выступает именно как социолог). Далее наступает этап интерпретации результатов применения алгоритма. Зачастую этот этап бывает сложным, требующим весьма неординарного искусства социолога. Только в результате реализации интерпретационного этапа мы получим представление о “причинах”, упомянутых выше. И, вероятно, достаточно корректный анализ действительных причин не может осуществляться, помимо всего прочего, без использования качественных методов. Получив высокое значение коэффициента корреляции между уровнем безработицы и количеством суицидов в регионе, мы вряд ли будем уверены в объективности соответствующих выводов причинно-следственного характера, если не прибегнем к серьезному изучению поведения отдельных людей, страдающих от безработицы. Только качественные методы могут дать основу для глубокого анализа того, почему и каким образом человек приходит к решению о самоубийстве.

Отметим наличие взаимозависимости: с одной стороны, выбор алгоритма, равно как и интерпретация результатов его использования, зависят от идей, заложенных в выборе понятий и их операционализации; с другой стороны, способ операционализации в значительной мере определяется тем, как мы априори видим алгоритм анализа данных, как собираемся интерпретировать результаты его применения (эта часть нашего утверждения менее традиционна; ее подробное обоснование см. в [Толстова, 1998а]; см. также примеры, приведенные ниже в настоящем параграфе и в разделе 5). Связь выбранного алгоритма с тем, как мы будем интерпретировать найденную формальную закономерность, представляется очевидной. Другими словами, три этапа – (1) измерение, (2) выбор и реализация конкретного алгоритма анализа и (3) интерпретация получающихся результатов неразрывно связаны друг с другом. То, каким способом реализуется один из них, обусловливает способы реализации двух других.

Итак, реализация алгоритма приводит нас к искомой формальной (математической) модели изучаемой социальной реальности.16 Интерпретация этой модели позволяет сделать содержательные выводы, т.е. фактически приводит исследователя к апостериорной содержательной модели той же реальности. Подчеркнем принципиальное отличие этой модели от того, что выше мы назвали априорной содержательной моделью. Апостериорная содержательная модель “вбирает в себя” все модельные свойства описанных выше априорной содержательной, концептуальной и формальной моделей. Если неадекватными реальности были наши априорные содержательные представления о ней, измерение, выбор метода и интерпретация результатов его применения, то такой же неудачной будет и наша итоговая содержательная модель.

В социологии острота проблемы адекватного соотнесения реальности с ее формальной (математической) моделью объясняется, в первую очередь, тем, что построение и априорной содержательной, и концептуальной моделей в значительной мере определяется субъективным видением мира социологом. В частности, здесь мы никуда не уйдем от известного веберовского принципа отнесения к ценности. Кроме того, практически каждое социологическое явление даже при тщательной отработке априорной содержательной и концептуальной моделей оказывается возможным формализовать многими способами Для решения одной и той же задачи, как правило, существует несколько методов, приводящих, вообще говоря, к разным выводам. Это положение представляется нам принципиальным (по крайней мере, для современного состояния науки): интересующие социолога явления столь сложны и многогранны, что любая формализация приводит к учету лишь какой-то стороны каждого явления, разные методы отвечают разным сторонам. Чтобы преодолеть соответствующие трудности, можно использовать специальные подходы (в первую очередь - комплексное использование нескольких методов [Толстова,1991а]).

Поясним рассмотренные положения на условном, заведомо упрощающем и реальность, и подходы к ее изучению, примере (см. схему 1).

Формирование и операционализация понятий при анализе данных (на условном примере)*

 
 

* Жирным шрифтом выделены блоки, касающиеся процесса формализации понятия закономерности. Внутренние прямоугольники отвечают блокам, касающимся процесса измерения. Не отмечены многочисленные обратные связи.

Раскрытие связок: А – абстрагирование от реальности на основе взглядов исследователя, формирование представлений об объекте и предмете исследования, выделение основных понятий и связывающих их закономерностей через отнесение к ценности; В – концептуализация: формирование ЭС и МС (см. п.2.2), формирование и операционализация понятий с учетом "взаимодействия" исследователя и респондента; С – операционализация понятий; D – определение измеряемых объектов (построение и корректировка выборки), непосредственная реализация процедуры измерения; Е – реализация метода анализа данных; F – интерпретация результатов применения метода

Предположим, что мы хотим изучить влияние социально-экономического положения в стране на воспитание молодежи. Сначала – об априорной содержательной модели. Сама постановка задачи говорит о том, что по существу мы уже опираемся на какие-то априорные модельные соображения, когда формулируем проблему именно указанным образом: кто-то, может быть, не согласится с использованием выражения "социально-экономическое положение в стране" – дескать, не о чем тут говорить – обычное положение, типичное для стран, "строящих" капитализм (для сравнения заметим, что вряд ли сам термин "социально-экономическое положение в стране" мог бы фигурировать в постановке задач советскими социологами 20 лет назад); кто-то не согласится с тем, что рассматривается именно проблема воспитания молодежи – дескать, более актуальным является анализ положения мелкого предпринимателя и т.д.

О реальных объектах во всей их уникальности и содержательном многоцветье, мы пока имеем смутное представление: это предположительно либо молодежь, либо дети, либо те, кто их в том или ином смысле воспитывает (воспитатели детских садов, учителя, деятели культуры, средств массовой информации и т.д.). Именно в их характеристиках (пока нам неизвестных) так или иначе проявляется и социально-экономическое положение, и проблемы воспитания. Об отношениях между реальными объектами, условно названных нами содержательной закономерностью, тоже пока известно мало; мы просто предполагаем, что социально-экономическое положение как-то влияет на воспитание молодежи.

Перейдем к обсуждению концептуальной модели. Будем рассматривать только учителей (тем самым вычленим изучаемые объекты), выявим, как наша проблема проявляется в их жизни. Выделим некоторые стороны жизни реальных учителей, относительно которых скажем только то, что они адекватно отражаются понятиями "материальное положение учителя" и "производительность его труда" (именно здесь речь идет о рождении понятий, отражающих качества изучаемых объектов, о формировании показателей). Будем полагать, что нас интересует причинно-следственное отношение между упомянутыми содержательными аспектами жизни учителя (первый шаг в концептуализации изучаемой закономерности). Ясно, что и на этом этапе мы использовали наше субъективное представление о проблеме. Кто-то, может быть, сочтет нужным придти к другим понятиям – скажем, не к “материальному положению”, а к “психологическому диссонансу, возникающему у учителя вследствие резкой смены ценностных ориентаций, господствующих в обществе”.

Чтобы завершить построение концептуальной измерительной модели, мы должны найти способ выражения названных понятий через наблюдаемые признаки, т.е. осуществить их операционализацию. Скажем, считаем, что первое понятие хорошо отражается признаком "зарплата учителя", а второе – признаком "средний процент успеваемости в тех классах, где учитель работает". Здесь тоже мы субъективны. Кто-то, может быть, оспорит предложенную операционализацию: скажем, будет считать, что о материальном положении лучше судить по тому, куда учитель посылает отдыхать собственных детей, а об эффективности работы учителя – скажем, по числу учеников, говорящих о своей любви к данному учителю (а выявление подобных аспектов взаимоотношений учителя и ученика может потребовать использования неформализованных методов опроса) и т.д. Но, так или иначе, будем считать, что, выбрав указанные выше признаки, мы тем самым построили концептуальную модель измерения.

Для завершения построения концептуальной модели искомой содержательной закономерности необходимо выбрать конкретный способ измерения связи между упомянутыми признаками – тот, который мы считаем хорошим отражением интересующей нас причинно-следственной зависимости. Например, в качестве меры связи может служить обычный коэффициент корреляции Пирсона.

Выбрав конкретную меру, мы как бы операционализируем интуитивное представление о связи и тем самым полностью концептуализируем модель искомой закономерности. Вычислив конкретное значение этой меры (например, получив значение коэффициента корреляции, равное 0,8), мы тем самым получаем интересующую нас формальную закономерность, формальную модель изучаемого явления.

Но здесь снова нет однозначности, снова много субъективности.

Чтобы подробнее пояснить это, подчеркнем наличие необходимости “разводить” две компоненты описанной модели изучаемого явления: первую – выбор в качестве меры связи именно такого показателя связи, а не другого; и вторую – конкретное значение выбранного коэффициента именно для анализируемой системы. Мы обращаем на это внимание читателя, поскольку на практике исследователи-социологи иногда учитывают только вторую компоненту. Вопрос же о выборе первой даже не ставится: считается само собой разумеющимся, что используется наиболее употребительный метод соответствующего плана. Это вряд ли может быть оправдано.

Как мы отмечали, сложность формализации социальных явлений приводит к тому, что для решения практически любой социологической задачи существует много методов. Это в полной мере отвечает нашей ситуации. В статистике известно более сотни способов измерения показателей связи между двумя признаками. Каждый из них отражает лишь какую-то одну сторону "истинной" связи. Выбрав показатель, мы тем самым волей-неволей выбираем соответствующий "срез с реальности". И у нас всегда останется вопрос о том, отвечает ли используемый формализм нашим содержательным представлениям о сути изучаемого явления. Например, о том, можем ли мы считать, что, скажем, обычный (Пирсоновский) коэффициент корреляции хорошо отражает природу формирования у учителя настроя на эффективную работу? Или же надо использовать, скажем, ранговый коэффициент Кендалла, или какой-либо из энтропийных коэффициентов связи? Вероятно, лишь имея перед собой множество подобных коэффициентов, мы можем понять, чт о есть наша связь в реальности (подробнее о сути различных подходов к измерению связи между двумя номинальными признаками можно прочесть, например, в [Лакутин О. В., Толстова Ю.Н., 1990, 1992]).

Теперь – несколько слов о том, как в нашем примере может проявляться связь между измерением, выбором алгоритма и интерпретацией результатов реализации последнего. Наиболее очевидной представляется связь между типом шкал (определение которого является этапом процесса измерения) и используемым коэффициентом связи. Так, известно, что существуют коэффициенты связи, рассчитанные на номинальные шкалы (например, коэффициенты, основанные на известном критерии Хи-квадрат, о них пойдет речь во второй части книги); порядковые шкалы (например, известные коэффициенты Спирмена и Кендалла), интервальные шкалы (например, классический коэффициент Пирсона). Тип же используемых шкал определяется многими обстоятельствами, в том числе содержательной интерпретацией используемых при измерении чисел. Предположим, например, что материальное положение учителя измеряется его зарплатой и обсудим, каким можно будет считать тип используемых шкал при разных содержательных посылках.

Соответствующую шкалу можно будет считать дихотомической номинальной, если, скажем, мы поделим всех учителей на тех, которые получают зарплату, не превышающую нижнюю границу уровня бедности (т.е. не превышающую стоимость т.н. потребительской корзины), и тех, зарплата которых превышает эту границу. При определенных условиях ту же шкалу можно считать порядковой – скажем, выделять три группы учителей – (1) не обеспеченных даже на уровне потребительской корзины (т.е., по официальной терминологии, живущих в нищете), (2) имеющих возможность оплатить потребительскую корзину, но не более того (живущих в бедности) и (3) обеспеченных хотя бы насколько-то выше этого уровня. А возможно полагать, что мы имеем дело с интервальной шкалой – считать, что, скажем, различие между учителями, получающими 3400 и 3600 рублей с интересующей нас точки зрения – та же, что и между учителями, получающими 400 и 600 рублей (мы намеренно описываем ситуации, когда тип шкалы определяется не технологией получения шкальных значений, а содержательными рассуждениями исследователя; подробнее об этом можно прочесть в [Толстова, 1998]). Ясно, что в каждом из описанных случаев мы должны выбрать свой, подходящий для используемой шкалы, коэффициент корреляции.

Более тонким является вопрос о связи измерения и выбора алгоритма с тем, как мы собираемся интерпретировать результаты применения последнего Конечно, прежде всего в интерпретацию результатов использования какого-либо алгоритма вкладывается тот смысл, который является естественным для метода – скажем, значение коэффициента корреляции мы будем интерпретировать как связь между некоторыми явлениями и, вероятно, при этом будем пытаться "выйти" на какие-то причинно-следственные отношения. Но в рамках такого "естественного" подхода имеются нюансы (подробнее о "естественном" подходе к интерпретации результатов анализа данных и необходимости расширения такого подхода см. [Толстова, 1991а]).

Применительно к рассматриваемому примеру отметим лишь то, что приведенные выше рассуждения об определении типов шкал напрямую касались выбора предполагаемых способов интерпретации результатов измерения связи. Поясним это.

Выбор обычного коэффициента корреляции Пирсона означает наше желание того, чтобы к выводу о наличии связи мы приходили, скажем, наблюдая, что при переходе зарплаты от 400 к 600 рублям эффективность работы учителя в среднем возросла на столько же, насколько в среднем она возросла при переходе от 3400 к 3600 рублям. Другими словами, если такого рода соотношения действительно имеют место (по всем парам значений наблюдаемых признаков), мы получим коэффициент, близкий к единице, и будем делать вывод о наличии соответствующей содержательной связи. И, рассуждая подобным образом, рискуем уйти в сторону от действительного положения вещей. Повышение зарплаты учителя от 3400 до 3600 рублей действительно можно интерпретировать как получение учителем возможности, скажем, регулярно покупать новые книги и, вследствие этого, более эффективно работать с учениками. А вот повышение зарплаты от 400 до 600 рублей вряд ли правомерно интерпретировать таким же образом. И та, и другая зарплата не могут обеспечить учителя даже возможностью наполнить продовольственную (а не то что потребительскую!) корзину. Причины же имеющего место фактически более высокого качества работы учителей, получающих зарплату 600 рублей (по сравнению с учителями, получающими 400 рублей), вероятно, надо искать в чем-то другом. Скажем, может оказаться, что 600 рублей получают учителя с более высоким стажем, более солидного возраста, и, вследствие этого, получившие "классическое" советское воспитание в духе осознания необходимости соблюдения долга, любви к ближнему, привыкшие работать "за идею" и т.д. Ясно, что здесь вывод о том, что улучшение материального положения способствует повышению качества работы учителя – ни при чем. А вот если мы будем использовать какой-либо из упомянутых выше порядковых коэффициентов корреляции, возможности интерпретации будут другие. Так, если окажется, что люди, живущие в нищете, в среднем хуже работают, чем люди, живущие в бедности, а последние – в среднем хуже, чем те, которые смогли "вылезти" из бедности, наверное, у нас будут основания говорить о подтверждении нашей закономерности. Нетрудно видеть, что именно такой вывод позволит сделать близость к единице какого-либо из порядковых коэффициентов.

Подведем итог рассмотрению нашего примера.

Совокупность измеренных ("наблюденных") значений выбранных признаков (т.е. найденные для каждого учителя значения его зарплаты и среднего процента успеваемости в его классах) – это наши исходные данные (формальные), это первичная, полученная в результате измерения, математическая модель некой реальности – той, которую мы считаем нужным отобразить при измерении в математические конструкты. Рассчитанное нами значение выбранного формального показателя связи между упомянутыми признаками – формальная закономерность, математическая модель изучаемого явления.

Однако процесс осуществляемого с помощью анализа данных моделирования реальности включает в себя не только применение конкретного алгоритма (расчет коэффициента корреляции Пирсона), но и (1) все, что этому расчету предшествовало: и само формирование в нашем мозгу представлений об исходных понятиях вкупе с гипотезами о наличии связи между ними, и операционализацию этих понятий, и выбор именно такого-то алгоритма, а не другого и т.д., а также (2) все, что должно следовать за указанным расчетом, за реализацией конкретного алгоритма, т.е. интерпретацию полученных результатов. Другими словами, говоря о статистической (и, вообще, - математической) закономерности как о модели реальности, сопрягая понятие такой закономерности, в первую очередь, с тем, что заложено в используемом алгоритме анализа данных, мы в то же время будем иметь в виду не только собственно реализацию алгоритма, но и то, что ее предваряет, и то, что за ней следует. См. об этом также раздел 5.

Ниже содержательную закономерность, отвечающую априорной содержательной модели, мы условно будем называть социологическим явлением (понимая его не как элемент диады "сущность - явление", а чисто интуитивно - как нечто, происходящее в обществе). Формальную закономерность (часть формальной модели) будем называть просто закономерностью (или статистической закономерностью, поскольку в данной работе нас интересуют именно соответствующие соотношения). Совокупность формальных данных будем называть эмпирическими фактами. Под формальными данными при этом будем иметь в виду или результаты измерения, или (хотя и реже) – результаты работы математического алгоритма (полагаем, что, например, утверждение, состоящее в том, что коэффициент корреляции равен, скажем, 0,8, вполне считать эмпирическим фактом).

В заключение настоящего параграфа отметим, что мы рассмотрели, конечно, не все аспекты проблемы соотнесения формального и содержательного при изучении статистических социологических закономерностей. Так, мы не рассмотрели ситуацию, когда у социолога априори, до проведения исследования, не сформированы (вообще, или в достаточной мере) представления о содержательной закономерности, когда, реализуя этап измерения, исследователь действует в значительной мере по наитию, и в процессе анализа собранных данных как бы “прощупывет” их с помощью многих методов, выбирая затем те результаты, которые согласуются с его знаниями (как априорными, так и полученными в результате сравнительного анализа результатов применения, вообше говоря, разных методов). Почти не коснулись мы и того, что нетривиальные причинно-следственные отношения, вероятно, могут быть обнаружены лишь с помощью творческого использования т.н. качественных методов, что применение последних, вероятно, необходимо и при формировании инструмента измерения и т.д. и т.д.

1.4. Статистическая закономерность как результат "сжатия" исходных данных

Посмотрим на проблему поиска статистических закономерностей с иной точки зрения. Поставленный в п. 1.1 вопрос о том, как "увидеть" в матрице "объект-признак" интересующие нас закономерности, можно сформулировать по-другому: как сжать исходную информацию, чтобы искомые закономерности предстали перед нами в явном виде? Известные способы сжатия – это и суть алгоритмы анализа данных. Поясним более подробно, какое "сжатие" здесь имеется в виду.

Начнем с того, что любая выявленная в процессе научного исследования закономерность (и не только в социологии) является определенного рода сжатием какой-то информации об изучаемых объектах, имеющейся в распоряжении исследователя. Виды такого сжатия весьма разнообразны. Выбор конкретного вида зависит от исследователя и определяется его априорными представлениями о характере изучаемого явления, пониманием цели сжатия. Коснемся двух аспектов таких представлений.

Первый аспект касается формальной сути алгоритмов сжатия. Дело в том, что в интересующем нас случае (когда рассматриваются только статистические закономерности) результаты такого сжатия чаще всего выражаются в виде определенных характеристик частотных (вероятностных) распределений значений рассматриваемых признаков (подробнее об этом пойдет речь в разделе 3). Так, совокупность из 1000 значений какого-либо признака может быть сжата до одного числа - соответствующего среднего арифметического значения. Множество из 2000 значений двух признаков можно сжать до одного числа – какого-либо коэффициента парной связи между этими признаками. Совокупность из 10000 значений 10-ти признаков может быть сжата до 9-ти коэффициентов регрессионного уравнения, связывающего один из рассматриваемых признаков с 9-ю другими и т.д.

Второй интересующий нас аспект представлений исследователя, выбирающего алгоритм анализа данных, касается некоторых моментов трактовки роли сжатия исходной информации в выявлении любых интересующих человека закономерностей природы (общества). Мы имеем в виду определенные стороны понимания самого термина "закономерность". Здесь, в свою очередь, выделим два момента.

Во-первых, при выявлении любой закономерности практически всегда неизбежна потеря исходной информации об изучаемых объектах (здесь мы не говорим о том, что эта потеря может быть не "абсолютна", все исходные данные могут быть сохранены, скажем, где-то в памяти ЭВМ): такова "цена" найденных исследователем научных положений. Казалось бы, это утверждение довольно естественно. С потерей информации тот же социолог сталкивается на каждом шагу. Скажем, она происходит уже благодаря использованию анкетного опроса (т.е. при сборе данных, еще до всякого анализа; здесь представляется уместным отметить, что, в соответствии со сказанным в предыдущем параграфе, в социологии отсутствует четкая граница между сбором и анализом данных), в таком случае вместо живого, неповторимого человека мы имеем набор чисел - ответов этого человека на вопросы анкеты. И необходимо тщательно "отслеживать", правомерны ли допускаемые потери (в частности, надо решить поставленные выше вопросы: те ли признаки мы выбрали для характеристики интересующих нас процессов, так ли определили тип шкалы, правильно ли заранее спрогнозировали, какой смысл будем вкладывать в числа, получающиеся в результате реализации алгоритма анализа данных и т.д.).

Подобные вопросы очень актуальны для социологии. Процесс поиска ответов на них далеко не всегда прост. Но суть соответствующих процедур в значительной мере состоит в выявлении того, какую информацию мы можем позволить себе потерять при сборе и анализе данных.

Во-вторых, во многих алгоритмах анализа встает вопрос о степени сжатия исходной информации. Например, в агломеративных алгоритмах классификации (т.е. таких, в соответствии с которыми разбиение совокупности на классы осуществляется в процессе реализации целой серии шагов, на первом из которых каждый исходный объект являет собой отдельный класс, а на последнем - все объекты объединяются в единый класс; описание подобных алгоритмов можно найти, например, в книге [Статистические методы …, 1979. Гл.12]; заметим, что именно агломеративные алгоритмы классификации заложены в известном пакете программ SPSS) встает вопрос, какое разбиение выбрать, сколько классов это разбиение должно содержать. В алгоритмах многомерного шкалирования (или, например, факторного анализа) требуется ответить на вопрос о том, какова размерность искомого признакового пространства, т.е. сколько латентных переменных определяют интересующее нас явление и т.д.

Наиболее естественным ответом на подобные вопросы, вероятно, можно считать тот, в соответствии с которым сжатие должно осуществляться до тех пор, пока человеческий разум не окажется способным охватить единым взглядом полученный результат. Иначе то, что формально могло бы вроде считаться закономерностью, для нас фактически таковой не будет. Так, строя типологию каких-либо объектов с помощью упомянутых методов классификации, мы при любой постановке задачи вряд ли сможем разумно проинтерпретировать как типологию, скажем, совокупность из 200 классов, каждый из которых характеризуется 15 признаками. В подобной ситуации мы, вероятно, поставим перед собой задачу дальнейшего сжатия исходной информации. То же можно сказать и о той ситуации, когда мы выявили 200 латентных факторов, формирующих пространство восприятия респондента, найденное с помощью многомерного шкалирования. Оси 200-мерного пространства мы даже и не будем называть латентными факторами17.

Заметим, что рассмотренные аспекты понимания искомой закономерности касаются одного из аспектов проблемы интерпретации результатов применения математического метода.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: