Каждая мера центральной тенденции имеет интересную интерпретацию в терминах ошибок, возникающих из-за того, что единственная статистическая характеристика заменяет все значения в группе. Смысл, в котором мода является наиболее представительным значением или значением, которое наилучшим образом «заменяет все значения», вполне ясен. Если мы вынуждены выбрать одно число для замены любого из значений, то совпадение было бы максимальное число раз, если бы выбранное число было модой группы. Интерпретация медианы группы не столь очевидна. Предположим, что оценки группы (1, 3, 6,7, 8) расположены на числовой оси, представленной ниже:
Мд обозначает медиану группы, 6. Разность между 6 и 1 составляет 5; между 6 и 3 — 3; между 6 и 6 — 0; между 6 и 7 — 1; между 6 и 8—2. Сумма этих разностей, 5+3+0+1+2 = 11, меньше суммы разностей относительно любой другой точки (можете убедиться в этом сами). Медиана представляет собой такую точку на числовой оси, для которой сумма абсолютных (то есть без учета знака) разностей всех значений меньше суммы разностей для любой другой точки.
Если вместо каждого значения выбрать медиану, то достигается минимальная ошибка —при условии, что «ошибка» определяется как сумма абсолютного отличия каждой» значения от оценки.
Интерпретация среднего уже была выполнена. Если взамен каждого значения берется среднее, обеспечивается минимальная ошибка—при условии, что «ошибка» определяется как сумма квадратов разностей каждого значения с оценкой.
Выбор меры центральной тенденции
Вычисление моды, медианы или среднего — чисто механическая процедура. Машины выполняют ее с гораздо большей точностью и скоростью, чем люди. Однако выбор из этих трех мер и их интерпретация иногда могут потребовать некоторых размышлений. Здесь приводятся полезные соображения, которые следует учитывать в процессе выбора:
К В малых группах мода может быть совершенно нестабильной. Мода группы (1, 1, 1, 3, 5, 7, 7, 8) равна 1; но если одна из единиц превратится в нуль, а другая — в два, то мода станет равной 7
Рис, 4.2 Гистограмма оценок в тесте из 10 вопросов на сложение двузначных чисел (n — 53).
2. На медиану не влияют величины «больших» и «малых» значений, Например, в группе из 50 данных медиана не изменится, если наибольшее значение утроится.
3. На величину среднего влияет каждое значение. Если одно какое-нибудь значение меняется на с единиц, Xср. изменится в том же направлении на с/п единиц.
Некоторые множества данных просто «не имеют центральной тенденции», что часто вводит в заблуждение прн вычислений только одной меры центральной тенденции. Особенно это справедливо для групп, имеющих более чем одну моду. Например, один из авторов —- исследователь в области педагогики утверждает, что может построить тесты успеваемости, состоящие нз восьми разнообразных пунктов, которые делят группу учащихся на тех, кто усвоил понятие сложения двузначных чисел, И тех, кто не усвоил. «Усвоившие» получат оценки 6, 7, 8; «неусвоившие»—0, 1 и 2. Допустим, типичная группа учащихся получила оценки, образующие гистограмму, показанную на рис. 4,2.
Среднее оценок, изображенных на рис. 4.2, приблизительно равно 3,85, несмотря на то, что даже не существует лица с оценкой 3,85.
Медиана этой группы равна приблизительно 2,17, несмотря на то, что значение двумя разрядами выше средней равно 6. Ни среднее, ни медиана не дают правильного представления об Этой группе. Возможно, наиболее простой характеристикой будет утверждение, что «гистограмма бимодальна и имеет 11-образную форму с одной модой при 0, а другой — при 8».
5. Центральная тенденция групп данных, содержащих край* ние значения, возможно, наилучшим образом измеряется медианой, когда гистограмма унимодальна. Одно крайнее значение может сместить среднее группы гораздо дальше того места, которое вообще стоит рассматривать как центральную область. Например, если 9 человек имеют доходы от 4500 до 5200 долларов со средним 4900 долларов, а доход десятого составляет 20 000 долларов, то средний доход для 10 лиц будет 6410 долларов. Эта цифра не позволяет судить овсей группе, хотя она выглядела бы внушительно для президента маленькой компании (чье жалованье составляет 20 000 долларов), который хочет охарактеризовать среднюю зарплату по платежной ведомости. В этом примере в качестве меры центральной тенденции следовало бы избрать медиану. Демографы, экономисты и журналисты часто выбирают для отчетов «доход по медиане», поскольку стремятся избежать только что описанной ситуации.
6. В унимодальных выборках, которые симметричны {то есть половина гистограммы, расположенная ниже моды, есть зеркальное отражение другой половины), среднее, медиана и мода совпадают. Например, см. рис. 4.3. Полигон частот показывает, что среднее, медиана и мода равны 40.
Отсутствие полной симметрии в полигоне частот или гистограмме обычно оказывает определенное влияние на соотношения между средним, медианой и модой. Предположим, дающее большинство данных некоторой группы расположено.выше вершины полигона частот, как, например, на рис, 4.4.
На рис. 4.4 мода (Мо) равна 100, медиана (Мд) составляет 104.6. а среднее (X.) 105,98, Если большинство оценок окажется ниже вершины полигона частот, то среднее станет минимальным, медиана больше, а мода максимальной,
7, Дальнейшие соображения, имеющие отношение к выбору меры центральной тенденции, можно обсуждать только поверхностно, если использовать понятия, рассмотренные до сих пор. Когда считают, что группа данных является выборкой из большей симметричной группы, среднее выборки, вероятно, ближе к центру большой группы, чем медиана или мода.
Рис. 4.4 Несимметричный полигон частот, иллюстрирующий соотношения между средним, медианой и модой.
Приведенный ниже анекдот обобщает множество проблем, возникающих в процессе применения разных мер центральной, тенденции.
Однажды пятеро мужчин сидели рядом на скамейке парка Двое был» бродягами, имущество которых выражалось в 25 центах Третий был рабочим, чей счет в банке и другое имущество составляли 2000 долларов Четвертый владел 15000 долларов в различных формах. Пятый же был мультимиллионером с чистым доходом 5 000000 долларов. Поэтому модальный актив группы составил 25 центов Эта цифра точно характеризует двоих, но является чрезвычайно некорректной для трех других Медиана, составляющая 2000 долларов, несколько меняет дело для всех, кроме рабочего. Среднее, 1 003 400,10 долларов, не является вполне удовлетворительным даже для мультимиллионера. Если мы должны выбрать одну меру центральной тенденции, возможно, это была бы мода, которая точно описывает 40 процентов группы Одиако, если сказать, что модальный актив пяти лиц, сидящих на скамье парка, равен 25 центам», то нам пришлось бы сделать вывод о том.что общий актив группы приблизительно составляет 1.25 доллара, что меньше фактического более чем и» пять миллионов долларов Очевидно, нет меры, адекватной этим «странным соседям по скамейке», которые просто не имеют «центральной тенденции».
Другой вывод из анализа противоречий этого анекдота состоит в том, что для группы с пятью значениями не требуется накакая обобщающая статистика.
В SPSS. Этот вид анализа включает описательное представление отдельных переменных. К нему относятся создание частотной таблицы, вычисление статистических характеристик или графическое представление. Частотные таблицы строятся для переменных, относящихся к номинальной шкале и для порядковых переменных, имеющих не слишком много категорий; об этом см. главы 6, 12 и 24.
Для переменных относящихся к номинальной шкале нельзя вычислить никаких значимых статистических характеристик. Наиболее часто для порядковых переменных и переменных, относящихся к интервальной шкале, но не подчиняющихся нормальному распределению, вычисляются медианы и оба квартиля (см. раздел 6.2); при небольшом числе категорий можно использовать вариант для концентрированных данных см. раздел 6.3).
Для переменных, относящихся к интервальной шкале и подчиняющихся нормальному распределению, чаще всего вычисляется среднее значение и стандартное отклонение пли стандартная ошибка (см. раздел 6.2). Однако следует выбрать только одну из этих двух характеристик разброса. Для переменных, относящихся ко всем статистическим шкалам, можно построить большое разнообразных графиков, на которых представлены частоты, средние значения или другие характеристики. Подробнее об этом в главах 22 и 23.