При обработке большого числа экспериментальных данных их предварительно группируют и оформляют в виде так называемого интервального ряда.
Пример. Рассмотрим среднюю месячную зарплату 50 случайно отобранных работников предприятия:
Величина Х здесь – средняя месячная зарплата. Наименьшее её значение – 130, наибольшее – 370. Диапазон составляет 130 - 370, его длина (размах) 370 – 130 = 240.
Разобьем диапазон на части (разряды) так, чтобы каждый разряд содержал несколько экспериментальных данных. Например, на 6 равных частей: 240: 6 = 40 – длина одного разряда. Границы: 130, 170, 210, 250, 290, 330, 270.
Замечание. В статистике же, для определения количества частей диапазона (интервалов) используется формула Стреджесса: I=1+3,322⋅log2N, где N — это количество значений диапазона (размер выборки).
|
|
Подсчитаем число значений в каждом разряде, например, разряд 130 - 170: 130, 170, 150,160,160; поскольку значение 170 попадает на границу 1 – го и 2 – го разрядов, включим его и в 1 – й, и во 2 – й разряды, но с с кратностью ½. Сложим кратности, получим абсолютную частоту 1 – го разряда:
m1 = 1 + ½ + 1+2 = 4 ½.
Относительная частота попадания Х в 1 – й разряд равна:
И т.д. Результаты можем свести в таблицу:
Таблица 6
130 - 170 | 170 - 210 | 210 - 250 | 250 - 290 | 290 - 330 | 330 – 370 | |
4,5 | 14,5 | |||||
0,09 | 0,1 | 0,24 | 0,29 | 0,18 | 0,1 |
Таблица 6 называется интервальным рядом. Для проверки правильности вычислений используется свойство:
,
а также свойство
.
Графически интервальный ряд изображается в виде гистограммы, которая строится так. Сначала вычисляют плотности частот делением относительной частоты каждого разряда на его длину:
, где ∆ Х = 40;
; ; ; ; .
Затем выбирают на плоскости систему координат и откладывают на оси Х границы разрядов: 130, 170, 210, … На каждом участке оси Х из отрезков длины 40, как на основании, строят прямоугольник высотой .
В каждом прямоугольнике площадь равна .
Отсюда правило: чтобы найти долю тех значений Х, которые попадают в некоторый интервал, надо найти площадь той части гистограммы, основанием которой является данный интервал.
Найдем долю значений средних месячных зарплат работников данного предприятия, которые попадают в интервал 210 – 300:
, или 57,5%.
В случае интервального ряда отдельные значения Х не фиксируются, а подсчитываются только абсолютные частоты каждого разряда. Поэтому нельзя использовать формулы (1), (5) и (7) для вычисления , D и S. Однако можно найти приближенные значения этих величин. Для этого находят середины разрядов ; затем вычисляют величины , D и S по следующим формулам:
|
|
(8)
(9)
(10)
Результаты расчетов могут быть сведены в таблицу:
Таблица 7
i | |||||
13,5 | - 106,8 | 11406,24 | 1026,56 | ||
19,0 | - 66,8 | 4462,24 | 446,22 | ||
55,2 | - 26,8 | 718,24 | 172,38 | ||
78,3 | 13,2 | 174,24 | 90,53 | ||
55,8 | 53,2 | 2830,24 | 509,44 | ||
35,0 | 93,2 | 8686,24 | 868,62 | ||
256,8 | 3113,75 |
и т.д.
D = 3113,75;
S = .
Интервальный ряд, гистограмма и числовые характеристики, найденные по формулам (8) – (10), составляют математическую модель средней заработной платы на данном предприятии. Она используется при проведении различных социологических исследований, например, при определении уровня жизни работников какой – либо отрасли.
Часто для анализа строится еще и график. В этом случае находятся средние значения по каждому интервалу (суммируются границы интервала и полученная сумма делится на 2). Для графика используются полученные средние значения (по оси абсцисс Х) и частоты mi или доли pi (по оси ординат У).
Лекция 3