Статистическое изучение вариации. Признаки, изучаемые статистикой, варьируются (отличаются друг от друга) у различных единиц совокупности в один и тот же период или момент времени

Признаки, изучаемые статистикой, варьируются (отличаются друг от друга) у различных единиц совокупности в один и тот же период или момент времени. Например, величина внешнеторгового оборота (ВО) варьируется по подразделениям Федеральной таможенной службы; величина экспорта (импорта) варьируется по направлениям экспорта (по разным странам-партнерам по внешней торговле), по видам товаров и т.п.

Причиной вариации являются разные условия существования разных единиц совокупности. Например, огромное число причин влияет на масштабы внешней торговли различных стран мира.

Для управления и изучения вариации статистикой разработаны специальные методы исследования вариации, система показателей, с помощью которой вариация измеряется, характеризуются ее свойства.

Первым этапом статистического изучения вариации является построение ряда распределения (или вариационного ряда) – упорядоченного распределения единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением признака.

Существует 3 вида ряда распределения:

1) ранжированный ряд – это перечень отдельных единиц совокупности в порядке возрастания изучаемого признака (например, таблица 4); если численность единиц совокупности достаточно велика ранжированный ряд становится громоздким, и в таких случаях ряд распределения строится с помощью группировки единиц совокупности по значениям изучаемого признака (ели признак принимает небольшое число значений, то строится дискретный ряд, а в противном случае – интервальный ряд);

2) дискретный ряд – это таблица, состоящая из двух столбцов (строк) – конкретных значений варьирующего признака X_i и числа единиц совокупности с данным значением признака f_i – частот; число групп в дискретном ряду определяется числом реально существующих значений варьирующего признака;

3) интервальный ряд – это таблица, состоящая из двух столбцов (строк) – интервалов варьирующего признака X_i и числа единиц совокупности, попадающих в данный интервал (частот), или долей этого числа в общей численности совокупностей (частостей).

Построим ряд распределения внешнеторгового оборота (ВО) по таможенным постам России, для чего необходимо провести статистическое наблюдение, то есть собрать первичный статистический материал, который представляет собой величину ВО по таможенным постам.

Результаты наблюдения ВО по 35 таможенным постам региона за отчетный период представим в виде ранжированного по возрастанию величины ВО ряда распределения (таблица 4).

Таблица 4. Внешнеторговый оборот (ВО) по 35 таможенным постам, млн.долл.

№ поста	ВО	№ поста	ВО	№ поста	ВО
	24,16		54,12		65,31
	27,06		54,91		69,24
	29,12		55,74		71,39
	31,17		55,91		77,12
	37,08		56,07		79,12
	39,11		56,80		84,34
	41,58		56,93		86,89
	44,84		57,07		91,74
	46,80		58,39		96,01
	48,37		59,61		106,84
	51,44		59,95		111,16
	52,56		62,05	Итого	2100,00

Построим интервальный ряд распределения ВО по таможенным постам, для чего необходимо выбрать оптимальное число групп (интервалов признака) и установить длину (размах) интервала. Поскольку при анализе ряда распределения сравнивают частоты в разных интервалах, необходимо, чтобы длина интервалов была постоянной[11]. Оптимальное число групп выбирается так, чтобы достаточной мере отразилось разнообразие значений признака в совокупности и в то же время закономерность распределении, его форма не искажалась случайными колебаниями частот. Если групп будет слишком мало, не проявится закономерность вариации; если групп будет чрезмерно много, случайные скачки частот исказят форму распределения.

Чаще всего число групп в ряду распределения определяют по формуле Стерждесса (19) или (20):

(19) или ,(20)

где k – число групп (округляемое до ближайшего целого числа); N – численность совокупности.

Из формулы Стерджесса видно, что число групп – функция объема данных (N).

Зная число групп, рассчитывают длину (размах) интервала[12] по формуле (21):

,(21)

где X _м_ax и X _min — максимальное и минимальное значения в совокупности.

В нашем примере про ВО по формуле Стерждесса (19) определим число групп:

k = 1 + 3,322 lg 35 = 1+ 3,322*1,544 = 6,129 ≈ 6.

Рассчитаем длину (размах) интервала по формуле (21):

h = (111,16 – 24,16)/6 = 87/6 = 14,5 (млн.долл.).

Теперь построим интервальный ряд с 6 группами с интервалом 14,5 млн.долл. (см. первые 3 столбца табл. 5).

Таблица 5. Интервальный ряд распределения ВО по таможенным постам, млн.долл.

i	Группы постов по величине ВО X_i	Число постов f_i	Середина интервала Х _i^’	Х _i^’ f_i	Накопл. частота f_i’	\| Х_i ^’ - \| f_i	(Х_i ^’ - ) ²f_i	(Х_i ^’ - ) ³f_i	(Х_i ^’ - ) ⁴f_i
	24,16 – 38,66		31,41	157,05		147,071	4326,001	-127246,23	3742856,97
	38,66 – 53,16		45,91	321,37		104,400	1557,051	-23222,31	346344,16
	53,16 – 67,66		60,41	785,33		5,386	2,231	-0,92	0,38
	67,66 – 82,16		74,91	299,64		56,343	793,629	11178,84	157461,90
	82,16 – 96,66		89,41	357,64		114,343	3268,572	93434,47	2670891,13
	96,66 – 111,16		103,91	207,82		86,171	3712,758	159966,81	6892284,32
	Итого			2128,85		513,714	13660,243	114110,66	13809838,86

Существенную помощь в анализе ряда распределения и его свойств оказывает графическое изображение. Интервальный ряд изображается столбиковой диаграммой, в которой основания столбиков, расположенные по оси абсцисс, – это интервалы значений варьирующего признака, а высоты столбиков – частоты, соответствующие масштабу по оси ординат. Графическое изображение распределения таможенных постов в выборке по величине ВО приведено на рис. 1. Диаграмма такого типа называется гистограммой [13].

Рис. 1. Гистограмма распределения Рис. 2. Полигон распределения

Данные табл. 5 и рис. 1 показывают характерную для многих признаков форму распределения: чаще встречаются значения средних интервалов признака, реже – крайние (малые и большие) значения признака. Форма этого распределения близка к нормальному закону распределения, которое образуется, если на варьирующую переменную влияет большое число факторов, ни один из которых не имеет преобладающего значения.

Если имеется дискретный ряд распределения или используются середины интервалов (как в нашем примере про ВО – в таблице 5 в 4-м столбце рассчитаны середины интервалов как полусумма значений начала и конца интервала), то графическое изображение такого ряда называется полигоном (см. рис. 2)[14], которое получается соединением прямыми точек с координатами X_i и f_i.

Вторым этапом статистического изучения вариации является расчет характеристик ряда распределения, которые описывают количественно его структуру, строение. Такова, например, медиана – величина варьирующего признака, делящая совокупность на две равные части – со значением признака меньше медианы и со значением признака больше медианы[15]. В нашем примере про ВО (табл. 4) медиана – это 18-й таможенный пост из 35 с величиной ВО 56,8 млн.долл. Из этого примера видно принципиальное различие между медианой и средней величиной: медиана не зависит от значений на краях ранжированного ряда. Даже если бы ВО 35-го таможенного поста был в 10 раз больше, величина медианы не изменилась бы. Поэтому медиану часто используют как более надежный показатель типичного значения признака, нежели средняя арифметическая, если ряд значений неоднороден, включает резкие отклонения от средней. В интервальном ряду распределения для нахождения медианы применяется формула:

, (22)

где Ме – медиана;

X₀ – нижняя граница интервала, в котором находится медиана;

h – величина (размах) интервала;

– накопленная частота в интервале, предшествующем медианному;

f_Me – частота в медианном интервале.

В табл. 5 медианным является среднее из 35 значений, т.е. 18-е от начала значение ВО. Как видно из столбца накопленных частот (6-й столбец), оно находится в третьем интервале. Тогда по формуле (22):

(млн.долл.).

Аналогично медиане вычисляются значения признака, делящие совокупность на 4 равные по численности части – квартили, которые обозначаются заглавной латинской буквой Q с подписным значком номера квартиля. Ясно, что Q₂ совпадает с Ме. Для первого и третьего квартилей приводим формулы и расчет по данным табл. 5:

(млн.долл.)

Так как Q₂ = Ме = 59,30 млн.долл., видно, что различие между первым квартилем и медианой (–15,87) больше, чем между медианой и третьим квартилем (12,89). Этот факт свидетельствует о наличии некоторой несимметричности в средней области распределения, что заметно и на рис. 1.

Значения признака, делящие ряд на 5 равных частей, называются квинтилями, на 10 частей – децилями, на 100 частей – перцентилями. Эти характеристики применяются при необходимости подробного изучения структуры ряда распределения[16].

Безусловно, важное значение имеет такая величина признака, которая встречается в изучаемом ряду распределения чаще всего. Такую величину принято называть модой. В дискретном ряду мода определяется без вычисления как значение признака с наибольшей частотой. Обычно встречаются ряды с одним модальным значением признака. Если в ряду распределения встречаются 2 или несколько равных (и даже несколько различных, но больших чем соседние) значений признака, то он считается соответственно бимодальным или мультимодальным. Это свидетельствует о неоднородности совокупности, возможно, представляющей собой агрегат нескольких совокупностей с разными модами. В интервальном ряду распределения интервал с наибольшей частотой является модальным. Внутри этого интервала находят условное значение признака, вблизи которого плотность распределения (число единиц совокупности, приходящихся на единицу измерения варьирующего признака) достигает максимума. Это условное значение и считается точечной модой. Логично предположить, что такая точечная мода располагается ближе к той из границ интервала, за которой частота в соседнем интервале больше частоты в интервале за другой границей модального интервала. Отсюда получаем обычно применяемую формулу (23):

, (23)

где Мо – мода;

Х₀ – нижнее значение модального интервала;

f_Mo – частота в модальном интервале;

f_Mo-1 – частота в предыдущем интервале;

f_Mo+1 – частота в следующем интервале за модальным;

h – величина интервала.

По данным табл. 5 рассчитаем точечную моду по формуле (23):

(млн.долл.).

К изучению структуры ряда распределения средняя арифметическая величина также имеет отношение, хотя основное значение этого обобщающего показателя другое. В интервальном ряду распределения ВО по таможенным постам средняя арифметическая рассчитывается как взвешенная по частоте середина интервалов X (расчет числителя – в 5-м столбце табл. 5) по формуле (11):

= = 2128,85/35 = 60,82 (млн.долл.).

Различие между средней арифметической величиной (60,82), медианой (59,30) и модой (58,96) в нашем примере невелико. Чем ближе распределение по форме к нормальному закону, тем ближе значения медианы, моды и средней величины между собой.

Третьим этапом статистического изучения вариации является расчет показателей размера и интенсивности вариации. Простейшим показателем является размах вариации – абсолютная разность между максимальным и минимальным значениями признака из имеющихся в изучаемой совокупности значений (24):

. (24)

Поскольку величина размаха характеризует лишь максимальное различие значений признака, она не может измерять закономерную силу его вариации во всей совокупности. Предназначенный для данной цели показатель должен учитывать и обобщать все различия значений признака в совокупности без исключения. Число таких различий равно числу сочетаний по два из всех единиц совокупности (в нашем примере про ВО число сочетаний составит ). Однако нет необходимости рассматривать, вычислять и осреднять все отклонения. Проще использовать среднюю из отклонений отдельных значений признака от среднего арифметического значения признака, а таковых в нашем примере про ВО всего 35. Но среднее отклонение значений признака от средней арифметической величины согласно первому свойству последней равно нулю. Поэтому показателем силы вариации выступает не арифметическая средняя отклонений, а средний модуль отклонений, или среднее линейное отклонение (25):

. (25)

В нашем примере про ВО по данным табл. 5 среднее линейное отклонение вычисляется как взвешенное по частоте отклонение по модулю середин интервалов от средней арифметической величины (расчет числителя произведен в 7-м столбце табл. 5), т.е. по формуле (26):

(млн.долл.).(26)

Это означает, что в среднем величина ВО в изучаемой совокупности таможенных постов отклонялась от средней величины ВО в РФ на 14,678 млн.долл.

Простота расчета и интерпретации составляют положительные стороны показателя Л, однако математические свойства модулей «плохие»: их нельзя поставить в соответствие с каким-либо вероятностным законом, в том числе и с нормальным распределением, параметром которого является не средний модуль отклонений, а среднее квадратическое отклонение, обозначаемое малой греческой буквой сигма () или s и вычисляемое по формуле (27) – для ранжированного ряда и по формуле (28) – для интервального ряда:

; (27) . (28)

В нашем примере про ВО по данным табл. 5 среднее квадратическое отклонение величины ВО по формуле (28) составило (расчет числителя произведен в 8-м столбце табл. 5):

(млн.долл.).

Среднее квадратическое отклонение по величине в реальных совокупностях всегда больше среднего модуля отклонений. Разница между ними тем больше, чем больше в изучаемой совокупности резких, выделяющихся отклонений, что служит индикатором «засоренности» совокупности неоднородными с основной массой элементами. Для нормального закона распределения отношение . В нашем примере про ВО: , т.е. в изучаемой совокупности наблюдаются некоторое число таможенных постов с отличающимися от основной массы величинами ВО.

Квадрат среднего квадратического отклонения представляет собой дисперсию отклонений, на использовании которой основаны практически все методы математической статистики, ее формула имеет вид (29) – для несгруппированных данных (простая дисперсия) и (30) – для сгруппированных (взвешенная дисперсия):

; (29) . (30)

Еще одним показателем силы вариации, характеризующим ее не по всей совокупности, а лишь в ее центральной части, служит среднее квартильное расстояние (отклонение), т.е. средняя величина разности между квартилями, определяемая по формуле (31):

. (31)

В нашем примере про ВО по формуле (31): (млн.долл.).

Сила вариации в центральной части совокупности, как правило, меньше, чем в целом по всей совокупности. Соотношение между средним линейным отклонением и средним квартильным расстоянием служит для изучения структуры вариации: большое значение такого соотношения свидетельствует о наличии слабоварьирующего «ядра» и сильно рассеянного вокруг него окружения в изучаемой совокупности. Для нашего примера про ВО соотношение Л/q = 1,021, что говорит о совсем незначительном различии силы вариации в центральной части совокупности и на ее периферии.

Для оценки интенсивности вариации и для сравнения ее в разных совокупностях и тем более для разных признаков необходимы относительные показатели вариации, которые вычисляются как отношение абсолютных показателей силы вариации, рассмотренных ранее, к средней арифметической величине признака, то есть показатели (32) – (35):

– относительный размах вариации: ; (32)

– линейный коэффициент вариации: ; (33)

– квадратический коэффициент вариации: ; (34)

– относительное квартильное расстояние: .(35)

В нашем примере про ВО эти показатели составляют:

= 87/60,82 =1,43, или 143%; = 14,678/60,82 = 0,241, или 24,1%;

= 19,756/60,82 = 0,32, или 32%; d = 14,38/60,82 = 0,236, или 23,6%.

Оценка степени интенсивности вариации возможна только для каждого отдельного признака и совокупности определенного состава, она состоит в сравнении наблюдаемой вариации с некоторой обычной ее интенсивностью, принимаемой за норматив[17]. Так, для совокупности таможенных постов вариация величины ВО может быть определена как слабая, если < 25%, умеренная при 25% < < 50% и сильная при > 50%.

Различная сила, интенсивность вариации обусловлены объективными причинами, поэтому нельзя говорить о каком-либо универсальном критерии вариации (например, 33%), так как для разных явлений и признаков этот критерий различен. Например, цена продажи американского доллара в коммерческих банках Н.Новгорода 26 июля 2007 года варьировала от 25,45 до 26,00 при средней цене 25,595 руб., тогда по формуле (32) = (26,00–25,45)/25,595 = 0,021, или 2,1%. Такая малая вариация вызвана тем, что при значительном различии курса доллара немедленно произошел бы отлив покупателей из «дорогого» банка в более «дешевые». Напротив, цена килограмма говядины в разных регионах России варьирует очень сильно – на десятки процентов и более (это объясняется разными затратами на доставку товара из региона-производителя в регион потребитель).

Четвертым этапом статистического изучения вариации является расчет моментов распределения и показателей его формы. Для дальнейшего изучения характера вариации используются средние значения разных степеней отклонений отдельных величин признака от его средней арифметической величины. Эти показатели называются центральные моменты распределения порядка, соответствующего степени, в которую возводятся отклонения (табл. 6) или просто моментов (нецентральные моменты в таможенной статистике практически не используются).

Таблица 6. Центральные моменты

Порядок момента	Формула
по несгруппированным данным	по сгруппированным данным
Первый μ₁
Второй μ₂
Третий μ₃
Четвертый μ₄

Величина третьего момента μ³зависит, как и его знак, от преобладания положительных кубов отклонений над отрицательными кубами либо наоборот. При нормальном и любом другом строго симметричном распределении сумма положительных кубов строго равна сумме отрицательных кубов, поэтому на основе третьего момента строится показатель, характеризующий степень асимметричности распределения – коэффициент асимметрии (36):

. (36)

В нашем примере про ВО показатель асимметрии по формуле (36) составил (расчет числителя произведен в 9-м столбце табл. 5):

= 0,423 > 0, т.е. асимметрия значительна.

Английский статистик К.Пирсон на основе разности между средней арифметической величиной и модой предложил другой показатель асимметрии (37):

. (37)

В нашем примере по данным табл. 5 показатель асимметрии по формуле (37) составил: = 0,09.

Показатель асимметрии Пирсона (37) зависит от степени асимметричности в средней части ряда распределения, а показатель асимметрии (36) – от крайних значений признака. Таким образом, в нашем примере про ВО в средней части распределения наблюдается меньшая асимметрия, чем по краям, что видно и по графику (рис. 2). Распределения с сильной правосторонней и левосторонней асимметрией показаны на рис. 3.

Мо

Правосторонняя As > 0

Левосторонняя As < 0

Рис. 3. Асимметрия распределения

С помощью момента четвертого порядка характеризуется еще более сложное свойство рядов распределения – эксцесс (от англ. «излишество»). Показатель эксцесса рассчитывается по формуле (38):

. (38)

Чаще всего эксцесс интерпретируется как «крутизна» распределения, что не совсем верно. График распределения может выглядеть сколь угодно крутым в зависимости от силы вариации признака: чем слабее вариация, тем круче кривая распределения при данном масштабе. Не говоря уже о том, что, изменяя масштабы по осям абсцисс и ординат, любое распределение можно искусственно сделать «крутым» и «пологим». Чтобы показать, в чем состоит эксцесс распределения, и правильно его интерпретировать, нужно сравнить ряды с одинаковой силой вариации (одной и той же величиной σ) и разными показателями эксцесса. Чтобы не смешать эксцесс с асимметрией, все сравниваемые ряды должны быть симметричными. Такое сравнение изображено на рис. 4.

Ex < 0

Ex > 0

Нормальное распределение Ex = 0

Рис. 4. Эксцесс распределения

Наличие положительного эксцесса означает наличие слабоварьирующего «ядра» и сильно рассеянного вокруг него окружения в изучаемой совокупности. Отрицательный эксцесс означает отсутствие такого «ядра».

В нашем примере по формуле (38) эксцесс составил (расчет числителя произведен в 10-м столбце табл. 5): , т.е. величина ВО по таможенным постам варьирует сильнее, чем при нормальном распределении.

Пятым этапом статистического изучения вариации является проверка соответствия ряда распределения теоретическому (нормальному, логнормальному, биномиальному, распределению Руассона и др.) с помощью критериев согласия, среди которых чаще всего применяют критерии Пирсона χ², Колмогорова и Романовского. Данный этап не входит в программу изучения для студентов заочного отделения (в случае необходимости – см. конспект лекций для дневного отделения).

3 4 5 6 7 8 9

Подборка статей по вашей теме: