Телефонные переговоры

Если просто соединить между собой точки, соответствующие абсолютным или относительным частотам (ось ординат) для середин интервалов, мы получим так называемый полигон распределения. Эта операция, разумеется, будет иметь какой-то смысл лишь для количественных переменных, которые мы в принци­пе можем представить себе как непрерывные. На рисунке 15 изображен поли­гон распределения для экспертных оценок телегеничности политического лидера (50 экспертов оценивали политика в процентах по отношению к некоторо­му абсолютному эталону телегеничности).


Рис. 15. Полигон распределения для оценок телегеничности политического лидера

Еще один популярный способ графического представления, обычно используе­мый для качественных данных (т. е. для номинальных или ординальных изме­рений), — это круговая диаграмма. Каждый сектор круговой диаграммы пред­ставляет дискретную категорию переменной. Величина сектора пропорциональ­на частоте категории для данной выборки. На рисунке 16 приведена круговая диаграмма, иллюстрирующая распределение подростков, страдающих вялоте­кущей формой шизофрении, по возрасту на момент начала («дебюта») заболевания[192].

 
 

Рис. 16. Заболеваемость вялотекущей формой шизофрении

у подростков муж­ского пола по возрастам, %

Какую бы форму представления данных мы ни избрали, полученное частотное распределение все еще содержит «слишком много» деталей, не отвечая при этом на весьма важные для содержательного анализа вопросы о самых типичных значениях признака и диапазоне разброса отдельных наблюдений. Для облегчения работы с частотными распределениями, а также для обобщенного пред­ставления их характеристик, обычно используют определенные числовые зна­чения — статистики. Дело в том, что специалисты по статистике используют последний термин в двух значениях: как название своей дисциплины и как обо­значение какой-либо числовой функции, описывающей результаты наблюдений. Наибольшее практическое значение имеют две группы статистик: меры цент­ральной тенденции и меры изменчивости (разброса).

Меры центральной тенденции указывают на расположение среднего, или ти­пичного, значения признака, вокруг которого сгруппированы остальные наблю­дения. Понятие среднего, центрального, значения в статистике, как и в повсед­невной жизни, подразумевает нечто «ожидаемое», «обычное», «типичное». Способность среднего значения давать некую обобщенную информацию о рас­пределении вытекает из того соотношения, которое связывает среднее значе­ние с другими «особыми» точками распределения — минимумом и максиму­мом: зная среднее значение, мы можем утверждать, что наименьшее наблюдае­мое значение полученного распределения — например, распределения веса или интеллекта — было не больше среднего, а наибольшее зафиксированное значе­ние— не меньше среднего.

Отличие статистической трактовки среднего значения (или, точнее, мер цент­ральной тенденции) от его «житейской» трактовки заключается прежде всего в том, что в статистике, в отличие от повседневной жизни, понятие среднего зна­чения может быть строго задано лишь для одномерного распределения пере­менной-признака. Мы можем, например, указать на семью со средним душе­вым доходом, но при этом не следует ожидать, что данная семья будет средней или типичной в каких-то других отношениях, т. е. будет иметь средний размер, среднюю жилплощадь и т. п. В повседневном общении мы приписываем поня­тию среднего куда более широкий и менее точный смысл. В этом нет большой беды, пока мы не смешиваем «житейскую» и «статистическую» интерпрета­ции. Мы действительно получаем полезную информацию, узнав, что окружаю­щие говорят о ком-то как о «человеке средних способностей», но будет ошиб­кой заключить, что некто X, имеющий средний показатель интеллекта, наверняка имеет средние успехи в учебе или посредственно сочиняет стихи. Именно поэтому популярные газетные образы «среднего российского подростка» или «среднего читателя», в сущности, лежат за пределами корректного использова­ния статистики.

Самой простой из мер центральной тенденции является мода (Мо). Для номи­нальных переменных мода — это единственный способ указать наиболее ти­пичное, распространенное значение. Разумеется, исследователь может пользо­ваться модальным значением и для характеристики распределения переменных, измеренных на более высоком уровне, если для этого существуют содержатель­ные основания (например, описывая распределение ответов на вопрос о коли­честве подписываемых журналов). Мода — это такое значение в совокупнос­ти наблюдений, которое встречается чаще всего. Например, если в выборке содержится 60% православных, 30% мусульман и 10% представителей других конфессий, то модальным значением будет «православный». У моды как меры центральной тенденции есть определенные недостатки, ограничивающие ее интерпретацию. Во-первых, в распределении могут быть две и более моды (со­ответственно оно является бимодальным или мультимодальным). Скажем, если в группе из десяти человек четверо не имеют автомобиля (0), четверо имеют один автомобиль, один человек имеет две машины и еще один — три, то нам придется указать два модальных значения — 0 и 1. Кроме того, мода чрезвы­чайно чувствительна к избранному способу группировки значений переменной. Объединяя категории ответа, мы резко увеличиваем число наблюдений в от­дельных категориях. Это открывает широкий простор для манипулирования данными (не всегда добросовестного). Поэтому «правилом хорошего тона» при вычислении модального значения для сгруппированных количественных дан­ных является выравнивание ширины для всех интервалов класса. Еще одно важное правило касается случаев, когда частоты для всех наблюдаемых значений почти равны. Здесь лучше воздержаться от вычисления моды, так как в этом случае она просто не может быть интерпретирована как мера центральной тен­денции. Если, скажем, 48% болельщиков поддерживают сборную Италии, а 49% — сборную Бразилии, модальное значение «поддерживает бразильцев» будет не очень модальным. И все же во многих случаях вычисление моды и необходимо, и полезно. Например, для архитектора, занимающегося планиро­ванием жилых домов, знание модального значения для размера семьи в данной местности, может оказаться весьма важным.

Другая мера центральной тенденции — медиана — обычно используется для ординальных переменных, т. е. таких переменных, значения которых могут быть упорядочены от меньших к большим. Пример вычисления меди­аны рассматривался нами в главе 6. Напомним, что медиана (Md) — это зна­чение, которое делит упорядоченное множество данных пополам, так что одна половина наблюдений оказывается меньше медианы, а другая — боль­ше. Иными словами, медиана — это 50-й процентиль распределения. Как мы уже видели, при работе с большим массивом данных удобнее всего ис­кать медиану, построив на основании частотного распределения распреде­ление накопленных частот (или построив распределение накопленных про­центов на основании распределения процентов). Для того чтобы найти ме­дианное значение для маленького массива наблюдений, достаточно упорядочить наблюдения от меньших значений переменной к большим: то значение, которое окажется в середине, и будет медианным. Например, для ряда: 17 баллов, 18 баллов, 20 баллов, 21 балл, 22 балла, медианой будет значение 20 баллов. Если число значений в группе наблюдений четное, то медианой будет среднее двух центральных значений. Медиану иногда назы­вают «позиционным средним», так как она указывает именно среднюю по­зицию в упорядоченном ряду наблюдений. Медиана может совпадать или не совпадать с модой. При этом медиана лучше всего соответствует нашему интуитивному представлению о середине упорядоченной последовательно­сти чисел. Некоторые исследователи даже полагают, что медиана — лучше и «справедливее» среднеарифметического при описании таких величин, как, скажем, доход семьи. Ведь семьи, имеющие доход ниже среднего, могут со­ставить и 60, и 70% населения. Когда же мы говорим, например, что медиан­ный доход составил 10 млн. рублей в год, то не более 50% семей окажутся «ниже среднего уровня». На медиану не влияют величины «крайних» очень больших или малых значений.

И все же для количественных переменных самойважной и распространен­ной является другая мера центральной тенденции— среднее арифметическое, которое чаще всего называют просто средним (и обозначают как ).Процедура определения среднего общеизвестна: нужно просуммировать все значения наблюдений и разделить полученную сумму на число наблюдений. В общем случае:

где Х 1 ... X i наблюдаемые значения,

n — число наблюдений,

å — знак арифметической суммы.

В таблице 8.2 показано, как вычислить средний возраст для выборки из 20 по­сетителей библиотеки. Заметьте, что каждое значение просто умножается на свою абсолютную частоту.

Приведенный нами пример (см. табл. 8.2) показывает, насколько среднее уязвимо для «крайних» значений. Фактически для нашей небольшой выбор­ки молодых людей прибавление одного — восьмидесятилетнего — читате­ля заметно увеличило средний возраст. Следует, однако, помнить о том, что степень «возмущения» среднего под влиянием единичных очень больших или малых значений уменьшается в прямом соответствии с ростом объема выборки. Заметим также, что при расчете среднего для сгруппированных, данных частоты умножаются на значение, соответствующее середине интер­вала группировки.

Таблица 8.2


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: