В практическом анализе оценка рассеяния значений признака может оказаться не менее важной, чем определение средней.
Самая грубая оценка рассеяния, определяемая по данным вариационного ряда, может быть дана с помощью размаха вариации:
, где хтaх и хтin — наибольшее и наименьшее значения варьирующего признака.
Этот показатель представляет интерес в тех случаях, когда важно знать, какова амплитуда колебаний значений признака, например, каковы колебания цены на данный товар в течение недели или по разным регионам в данный отрезок времени.
Однако этот показатель не дает представления о характере вариационного ряда, расположении вариантов вокруг средней и может сильно меняться, если добавить или исключить крайние варианты (когда эти значения аномальны для данной совокупности). В этих случаях размах вариации дает искаженную амплитуду колебания против нормальных ее размеров.
Для оценки колеблемости значений признака относительно средней используются характеристики рассеяния. Они различаются выбранной формой средней и способами оценки отклонений от нее отдельных вариантов. К таким показателям относятся: среднее линейное отклонение, дисперсия, среднее квадратическое отклонение.
Среднее линейное отклонение – среднее арифметическое из абсолютных значений отклонений отдельных вариант от их средней величины:
для несгруппированных данных: ;
для сгруппированных данных: ,
где xi – значение признака в дискретном ряду или середина интервала в интервальном распределении;
fi – частота признака.
Среднее линейное отклонение выражено в тех же единицах измерения, что и варианты или их средняя. Оно дает абсолютную меру вариации.
Чтобы избежать равенства нулю суммы отклонений от средней, можно вместо абсолютных отклонений использовать их квадраты. В этом случае мера вариации называется дисперсией.
Для несгруппированных данных: ;
для сгруппированных данных: .
Исчисление дисперсии сопряжено с громоздкими расчетами, которые можно упростить, если использовать следующую формулу:
.
Вследствие суммирования квадратов отклонений дисперсия дает искаженное представление об отклонениях, измеряя их в квадратных единицах. Поэтому на основе дисперсии вводят еще две характеристики: среднее квадратическое отклонение и коэффициент вариации.
Среднее квадратическое отклонение измеряется в тех же единицах, что и варьирующий признак, и исчисляется путем извлечения квадратного корня из дисперсии:
для несгруппированных данных: ;
для сгруппированных данных: .
Среднее квадратическое отношение, как и среднее линейное отклонение, показывает, на сколько в среднем отклоняются конкретные варианты признака от его среднего значения. Отклонение, выраженное в s, называется нормированным или стандартизированным.
Для оценки меры вариации и ее значимости используется коэффициент вариации, который дает относительную оценку вариации и получается путем сопоставления среднего квадратического отклонения со средним уровнем явления, результат выражается в процентах:
.
Так как коэффициенты вариации дают относительную характеристику однородности явлений и процессов, они позволяют сравнивать степень вариации разных признаков. Интерпретируется следующим образом: если V < 33%, то исследуемая совокупность однородная, средняя типичная; если V > 33%, то совокупность разнородная, средняя фиктивная, к ней следует относиться осторожно.
Пример. По приведенным данным таблицы смертности вычислить всевозможные показатели вариации:
Таблица 2. Расчетная таблица для исчисления показателей вариации.
Группы по возрасту | Мужчины fi | Середина интервала xi | |
0-4 | |||
5-9 | |||
10-14 | |||
15-19 | |||
20-24 | |||
25-29 | |||
30-34 | |||
35-39 | |||
40-44 | |||
45-49 | |||
50-54 | |||
55-59 | |||
60-64 | |||
65-69 | |||
70 и старше | |||
Итого | |||
Середина интервала xi | Расчетные показатели | |||
1002,9889 | 16125052,55 | |||
711,2889 | 11279619,38 | |||
469,5889 | 11270603,19 | |||
277,8889 | 9191453,26 | |||
136,1889 | 4390866,32 | |||
44,4889 | 1325546,78 | |||
2,7889 | 96677,22 | |||
11,0889 | 288766,04 | |||
69,3889 | 2078266,94 | |||
177,6889 | 4889998,53 | |||
335,9889 | 8000567,69 | |||
544,2889 | 5706324,83 | |||
802,5889 | 11999506,64 | |||
1110,8889 | 9965784,32 | |||
1469,1889 | 20351204,64 | |||
7166,3335 | 116960238,33 | |||
По выполненным расчетам вычислим показатели вариации:
Дисперсия:
или .
Среднее квадратическое отклонение: , то есть в среднем возраст мужчин отклоняется от 33,67 лет на 18,51 год.
Коэффициент вариации , так как больше 33%, следовательно, структура разнородная, средняя фиктивная, к ней надо относиться осторожно.
Практическое задание:
Имеются следующие данные о распределении работников предприятия по общему стажу работы:
Общий стаж (лет) | до 4 | от 4 до 8 | от 8 до 12 | от 12 и более |
Число работников |
Вычислить коэффициент вариации общего стажа работы.