Случайные величины и распределения вероятностей как основные объекты изучения математической статистики и эмпирической социологии

Удовлетворенность

Основными объектами изучения для математической статистики являются т. н. случайные величины (пока – одномерные). Это функции, определенные на некоторых случайных событиях ("случайное событие" – основное понятие теории вероятностей; как известно, сам термин "вероятность" осмыслен лишь применительно к некоторому случайному событию) и принимающие числовые значения. В качестве типичного для социолога случайного события является выбор того или иного респондента. Случайными величинами могут служить признаки, определенные для этих респондентов.

Скажем, возьмем такой признак, как возраст. "Переходя" от события к событию. т.е. от одного респондента к другому (скажем, перебирая анкеты), мы будем фиксировать разные значения возраста (18, 36, 24,... лет), т.е. разные значения нашей случайной величины.

Случайная величина может быть многомерной – например, когда ей отвечает несколько признаков, а ее значениями являются не отдельные числа, а сочетания чисел – значений рассматриваемых признаков. Скажем, если наряду с возрастом мы будем учитывать пол (0 - мужчина, 1 - женщина) и зарплату (в рублях), то в качестве значений нашей трехмерной случайной величины могут выступать, например, тройки чисел: (18, 0, 524), (36, 1, 1200) и т.д.

Сказанным не ограничивается определение случайной величины. Мы не упомянули самого главного – для каждой совокупности значений случайной величины должна быть определена вероятность того, что, обследуя респондентов, социолог встретит значение из этой совокупности.

Напомним, что вероятностью события называют некоторую числовую характеристику степени возможности его появления в определенных, могущих повторяться неограниченное число раз, условиях. Выше в качестве события указывался выбор респондента. О вероятности этого события говорить не будем (поскольку такая вероятность связана с правилами построения выборки, которые мы не затрагиваем). В интересующем нас случае тот факт, что случайная величина приобретает некоторое значение, сам рассматривается как случайное событие. И именно задание соответствующих вероятностей сопрягается с определением случайной величины. Условия же реализации нашего случайного события – это условия, определяющие отбор респондента.

Совокупность вероятностей встречаемости значений рассматриваемой случайной величины называется отвечающим ей распределением вероятностей, или просто ее распределением. Функция, задающая для определенных наборов значений случайной величины отвечающую им вероятность, называется функцией распределения этой случайной величины. Задать случайную величину, по существу, и означает задать соответствующее вероятностное распределение.

На практике часто используется т.н. функция плотности вероятности, определяющая, грубо говоря, вероятность встречаемости каждого значения случайной величины²⁴. В качестве примера можно привести многим хорошо знакомое, часто использующееся в математической статистике нормальное распределение (которое тоже, как известно, может быть одномерным и многомерным), имеющее вид "колокола".

Подчеркнем, что самое вероятность исследователь никогда не наблюдает, в принципе не может измерить. Это – продукт нашего мышления, абстракция, идеальный конструкт²⁵. Вероятность присуща генеральной совокупности, понятие которой само является абстракцией²⁶. Вместо вероятности исследователь обычно имеет дело с ее выборочной оценкой – относительной частотой встречаемости соответствующего события. Косвенное обоснование целесообразности такой подмены можно усмотреть в том, что одно из известных определений вероятности, носящее название частотного, как раз и состоит в отождествлении ее с тем пределом, к которому стремятся частоты встречаемости интересующего нас события при многократном повторении выборочных расчетов (для все новых и новых выборок).

Чтобы было возможно использование аппарата математической статистики, необходимо частотные выборочные распределения расценивать как выборочные представления генеральных распределений вероятностей. Каждое такое распределение ассоциируется со случайной величиной.

Так, например, для выборки из 10 респондентов, сведения о которой фигурируют в таблице 1, выборочное частотное распределение, отвечающее случайной величине "Удовлетворенность трудом", будет иметь вид, представленный в таблице 2.

С помощью тех же данных можно рассчитать и двумерные распределения, одно из которых приведено в таблице 3. Это - выборочное представление двумерной случайной величины, отвечающей паре признаков ("пол", "удовлетворенность трудом").

Таблица 2.

Пример частотной таблицы, построенной на основе данных таблицы 1 и отражающей выборочное представление распределения случайной величины "удовлетворенность трудом".

Значение признака
Частота встречаемости значения (%)
Выборочная оценка вероятности Р встречаемости значения	0,3	0,3	0,1	0,1	0,2

Таблица 3.

Пример частотной таблицы, построенной на основе данных таблицы 1 и отражающей выборочное представление распределения двумерной случайной величины ("пол", "удовлетворенность трудом").

В разделе 2 второй части понятие частотных таблиц будет обсуждено более подробно.

Математическая статистика позволяет находить широкий круг статистических закономерностей. Любая из них является некоторым набором параметров вероятностных распределений рассматриваемых случайных величин (одномерных и многомерных). Такого рода характеристиками являются, к примеру, разные меры средней тенденции, разброса значений случайных величин, связи между признаками и т.д. Результат, скажем, регрессионного анализа можно рассматривать как совокупность коэффициентов регрессии, которые в конечном итоге тоже являются некоторыми параметрами исходного многомерного распределения (характеристиками многомерной случайной величины) и т.д. Однако сами параметры, в той же мере, как и те вероятности, на базе которых они рассчитываются, остаются неизвестными исследователю. Вместо истинных значений параметров мы имеем только их выборочные оценки, рассчитанные на основе частотных распределений. Эти оценки называются статистиками²⁷.

Итак, поскольку исследователь изначально имеет дело лишь с частотами, а не с соответствующими вероятностями, то фактически исходные случайные величины предстают перед ним в весьма приближенном виде. То, что на основе выборочных данных мы рассчитываем не сами параметры распределений, а лишь их выборочные оценки (отвечающие им статистики), усугубляет степень приблизительности искомых закономерностей. Другими словами, вид закономерности, найденной для выборки, вообще говоря, будет отличаться от вида ее для генеральной совокупности. Естественно, важную роль должна играть оценка подобного различия, поскольку нас, вообще говоря, интересуют закономерности, свойственные генеральной совокупности, хотя на практике мы и имеем дело лишь с выборкой. Именно такую оценку мы и сможем сделать, пользуясь положениями математической статистики.

Основные методы, лежащие в русле математической статистики, обычно делят на две большие группы, определяемые характером рассматриваемых закономерностей и технологией их поиска: методы статистической оценки параметров (способы расчета выборочных значений параметров и перехода от выборочных значений к генеральным; математическая статистика говорит о том, каким качествам эти оценки должны обладать, чтобы как можно более походить на их генеральные прообразы, и каким образом надо строить "хорошие" статистики, отражающие известные параметры вероятностных распределений)²⁸ и методы проверки статистических гипотез (оценка степени правдоподобности гипотезы о наличии некоторых соотношений между случайными величинами в генеральной совокупности на основании расчета определенных характеристик соответствующих выборочных распределений). Подробнее о сути этих задач можно прочесть, например, в [Гласс, Стэнли,1976; Паниотто, Максименко, 1982; Статистические методы анализа информации в социологических исследованиях, 1979, гл. 6]²⁹. Здесь подчеркнем только, что правила переноса результатов с выборки на генеральную совокупность базируются на рассмотрении некоторых выборочных статистик как случайных величин и изучении определенных параметров их вероятностных распределений (скажем, если статистика – среднее арифметическое значение какого-либо признака, то упомянутое распределение для нее получится, если представить себе бесконечное количество выборок одного и того же размера и расчет для каждой выборки этого среднего; заметим, что, как известно, дисперсия такого распределения средних обычно называется средней ошибкой выборки и очень часто используется в эмпирических исследованиях).

В решении описанных двух задач по существу и заключается поиск статистических закономерностей. Ясно, что эти задачи весьма актуальны и для социолога. Другими словами, для него является естественным такое же понимание сути искомых соотношений между наблюдаемыми величинами, какое "заложено" в математической статистике. Обоснуем это более подробно.

Должны ли случайные величины интересовать социолога? Конечно. И социолог ими фактически пользуется, не употребляя, правда, соответствующего термина. В своей специфичной ситуации исследователь использует термин "признак" или "совокупность признаков". Обращение социолога к математической статистике по существу начинается со статистической трактовки значений используемых признаков. К примеру, чаще всего, социолога интересует не тот факт, что, скажем, ученик 10 класса средней школы № 5 города N Ваня Иванов намеревается поступить в институт, а более общее явление: например, то, что среди десятиклассников рассматриваемого региона, обладающих определенными социально-демографическими характеристиками (мужчин, горожан и т.д.), велика доля людей, намеревающихся получить высшее образование. Обобщая сказанное, можно полагать, что социолога интересует распределение долей тех объектов совокупности (десятиклассников изучаемого региона), которые обладают определенными значениями рассматриваемого признака (в нашем примере речь идет о признаке "намерение респондента"), или определенными сочетаниями значений нескольких рассматриваемых признаков (например, трех: пола, местожительства, намерения).

Первым шагом сжатия информации, содержащейся в матрице объект-признак (см. таблицу 1), как правило, является получение частотных распределений разной размерности (см. таблицы 2 и 3). Именно с изучения таких распределений обычно начинается анализ данных.

Таким образом, в качестве случайной величины перед социологом выступает признак (набор признаков), вместо вероятностей значений случайной величины исследователь имеет дело с относительной частотой встречаемости значений признака, вместо вероятностного распределения – с частотным, вместо параметров распределения – с отвечающими им статистиками. Рассчитав интересующие его статистики, он стремится обобщить результаты на генеральную совокупность.

Итак, основной объект, изучаемый математической статистикой, – случайная величина – является основным объектом изучения и для эмпирической социологии. Основные задачи, решаемые математической статистикой служат таковыми и для социолога, занимающегося изучением собранных эмпирических данных. Но, к сожалению, оказывается, что непосредственное применение математической статистики в социологии, зачастую, бывает весьма проблематично. Условия, предполагаемые строгими теоремами математической статистики, отнюдь не всегда выполняются на практике. И тогда вместо строгой математической статистики на сцену выступает не совсем строгое ее "приближение" - анализ данных.

Поясним, что именно мешает применению методов математической статистики в социологических исследованиях. Проведем линию размежевания между математической статистикой и теми лежащими вне ее методами, которые, давая социологу возможность поиска статистических закономерностей, в то же время позволяют преодолеть соответствующие трудности.

Сразу подчеркнем, что эти трудности можно разделить на две большие группы.

Трудности первой группы типичны не только для социологии, но и для многих других наук, имеющих дело с эмпирическими данными и направленных на выявление статистических закономерностей (в числе таких наук могут быть названы биология, геология, медицина, история, психология). Именно потребности таких наук послужили толчком к развитию методов анализа данных как некой замены математико-статистических подходов для тех ситуаций, когда последние оказываются неприменимыми.

Трудности второй группы специфичны именно для социологии. Говоря о них, мы будем иметь в виду не анализ данных вообще, а анализ социологических данных. В следующем параграфе коснемся трудностей первой группы. Социологическая специфика будет затронута в разделе 5.

4. Математическая статистика и анализ данных:

9 10 11 12 13 14 15

Подборка статей по вашей теме: