Вариационные ряды и их характеристики

 


Первичная обработка результатов

Наблюдений

Информация о работе любой отрасли производственной сферы (до- быча нефти и газа, ремонт скважин, нефтехимическое производство, ма- шиностроение и т.д.) ставит перед ее руководством и наукой задачу: как, сведя к минимуму расходы по использованию природных, материальных и людских ресурсов, эффективно анализировать работу отрасли, управлять ею, прогнозировать развитие возможных сценариев поведения отрасли как сложной системы. Это означает, что математическому моделированию подлежит (дискретный, непрерывный, фрактальный) информационный по-


ток — статистическая совокупность — в виде случайных событий и слу- чайных величин. Изучение подобного рода массовых явлений, выявление их статических и динамических закономерностей становится предметом математической статистики. Среди полезной информации о статистиче- ской совокупности особый интерес представляют статистические дан- ные, которые можно записать в виде ряда { x (1), x (2), …, x (n)} числовых зна- чений интересующего нас признака (случайной величины Х). Обработку этого ряда производят посредством методов математической статистики; при этом точность статистических методов повышается с ростом n.

Пусть A — некоторое множество (например, множество всех жите- лей данного города), B Ì A — случайно выбранное подмножество (напри- мер, множество случайно выбранных жителей, при этом некий наблюда- тель измерил у них рост, скажем, в сантиметрах). Выборочным методом называется метод исследования общих свойств множества А на основе изучения так называемых статистических свойств лишь множества В. Множество А называется генеральной совокупностью, а множество Ввыборочной совокупностью или выборкой. Число N = | A | элементов мно- жества А называется объемом генеральной совокупности, а число n = | B |

объемом выборки. При изучении некоторого признака Х (в нашем при- мере — роста) выборки производят испытания или наблюдения (измере- ние роста).

Пусть в результате независимых испытаний, проведенных в одина- ковых условиях, получены числовые значения { x (1), x (2), …, x (n)}, где n — объем выборки.

При обработке статистических данных строятся статистики. Стати- стикой называется функция

 

R n   ¾¾ f ® R

(x (1), x (2), …, x (n)) = х a f (x),

 


которая набору значений


(x (1), x (2) ,..., x (n) )


случайной величины ставит в


соответствие по некоторому правилу f действительное число. Статистика является числовой функцией на множестве реализаций случайной величи- ны.

Значения х (i) располагают в порядке возрастания:

 


x 1,


x 2,..., xn


(x 1 <


x 2 <... <


xn).


 

Может оказаться, что некоторые варианты хi в выборке встречаются не- сколько раз.

Число ni, показывающее, сколько раз встречается варианта хi в выбо- рочной совокупности, называется ее частотой (эмпирической частотой).


 

Частоты вариант называются их весами. Отношение wi = ni / n частоты ni к объему n выборки называют относительной частотой (частостью) вари- анты хi.

Вариационным рядом (или статистическим распределением) назы- вается ранжированный в порядке возрастания или убывания ряд вариант с соответствующими им весами.

Различают дискретные и непрерывные вариационные ряды. Дис- кретный вариационный ряд записывают в виде табл. 1.

Т а бл и ца 1

Варианты, xi x 1 x 2 ... xk
Частоты, ni n 1 n 2 ... nk

 


k

Здесь niчастота появления значения xi, причем å  ni

i =1


 

= n.


Если объем n выборки большой (n > 30), то результаты наблюдений сводят в интервальный вариационный ряд, который формируется следую- щим образом.

Вычисляют размах R варьирования признака Х, как разность между


наибольшим


x max


и наименьшим


x min


значениями признака:


 

R = x max - x min.

 

Размах R варьирования признака Х делится на k равных частей и таким об- разом определяется число столбцов (интервалов) в таблице. Число k час- тичных интервалов выбирают, пользуясь одним из следующих правил:

 


1) 6 £ k £ 20,


2) k»,


3) k» 1 + log2 n» 1 + 3,221× lg n.


 

При небольшом объеме n выборки число k интервалов принимают равным от 6 до 10. Длина h каждого частичного интервала определяется по формуле: h = R / k.

Величину h обычно округляют до некоторого значения d. Например,


если результаты xi


признака Х — целые числа, то h округляют до целого


значения, если xi


содержат десятичные знаки, то h округляют до значения


d, содержащего такое же число десятичных знаков. Затем подсчитывается


частота ni, с которой попадают значения xi


признака Х в i -й интервал.


Значение


xi, которое попадает на границу интервала, относят к какому-


либо определенному концу, например, к левому. За начало


x 0 первого ин-


тервала рекомендуется брать величину


x 0 =  x min


- 0,5 h. Конец xk


послед-


него интервала находят по формуле


xk = x max + 0,5 h. Сформированный


интервальный вариационный ряд записывают в виде табл. 2.


 

 

Таблица 2

Варианты-интервалы, (xi -1; xi) (x 0; x 1) (x 1; x 2) ... (xk -1; xk)
частоты, ni n 1 n 2 ... nk

 

Интервальный вариационный ряд изображают в виде гистограммы частот ni или гистограммы относительных частот wi = ni / n.

Гистограммой называется ступенчатая фигура, для построения ко-

торой по оси абсцисс откладывают отрезки, изображающие частичные ин-

тервалы (xi -1;   xi ) варьирования признака Х, и на этих отрезках, как на ос-

нованиях, строят прямоугольники с высотами, равными частотам или час- тостям соответствующих интервалов.

Для расчета статистик (выборочной средней, выборочной диспер- сии, асимметрии и эксцесса) переходят от интервального вариационного


ряда к дискретному. В качестве вариант xi


этого ряда берут середины ин-


тервалов (xi; xi +1). Дискретный вариационный ряд записывается в виде

табл. 3 или табл. 4.

 

Т а бл и ца 3

Варианты, хi х 1 х 2 ... хk
частоты, ni n 1 n2 ... nk

 

Здесь å ni = n, где n — объем выборки.

Т а бл и ца 4

Варианты, xi x 1 x 2 ... xk
относительные час- тоты, wi = ni / n w 1 w 2 ... wk

 


k

Здесь å  wi

i =1


= 1.


 

Графически дискретный вариационный ряд изображают в виде поли- гона частот (соответственно в виде полигона относительных частот) сле- дующим образом. Сначала на числовой плоскости строят точки (xi; ni)


(точки (xi; wi)), где xi


i -я варианта, число ni (число wi) называют час-


тотой (частостью). Затем строят ломаную, соединяющую построенные точки, которую и называют полигоном.

Вариационные ряды графически можно изобразить в виде кумуля- тивной кривой (кривой суммкумуляты). При построении кумуляты дискретного вариационного ряда на оси абсцисс откладывают варианты

xi, а по оси ординат соответствующие им накопленные частоты Wi. Со-


единяя точки (xi; Wi) отрезками, получаем ломаную, которую называют

кумулятой. Для получения накопленных частот и дальнейшего построения точек (xi; Wi) составляется расчетная табл. 5.

Т а бл и ца 5

Варианты, xi x 1 x 2 ... xk
Относительные частоты, wi = ni / n w 1 = n 1 / n w 2 = n 2 / n ... wk = nk / n
Накопленные относительные частоты, Wi = Wi 1 + wi W 1 = w 1 W 2 = W 1 + w 2 ... Wk = Wk – 1 + wk

 

При построении кумуляты интервального вариационного ряда лево- му концу первого интервала сопоставляется частота, равная нулю, а пра- вому — частота этого интервала. Правому концу второго интервала соот- ветствует накопленная частота первых двух интервалов, то есть сумма час- тот этих интервалов и т. д. Правая граница последнего интервала равна сумме всех частот, то есть объему n выборки.

Для характеристики свойств статистического распределения в мате- матической статистике вводится понятие эмпирической функции распре- деления.

Эмпирической функцией распределения или функцией распределения

называется функция F в (x), определяемая равенством:

n
F в (x) = nx ,                                          (1)

 


где n — объем выборки, nx — число вариант


xi, меньших х.


Эмпирическая функция F в (x) служит для оценки теоретической функции распределения генеральной совокупности. Различие между ними состоит в том, что теоретическая функция F (x) определяет вероятность со- бытия X < x, а эмпирическая функция F в (x) определяет относительную частоту этого события. Из теоремы Бернулли следует, что при больших n числа F в (x) и F (x) мало отличаются одно от другого в том смысле, что

lim P [ | F (x) – F в (x) | < e] = 1 (e > 0).

n ®¥

 

Другими словами, при больших объемах выборки n, согласно закону больших чисел, функция F в (x) сходится по вероятности к теоретической функции F в (x) признака Х.

Аналогом этой функции в теории вероятностей является интеграль- ная функция распределения F (x). Функция F в (x) отличается от функции   F

(x) тем, что вместо вероятности P (X < x) берется накопленная частота

n
Wi = nx. Значение функции F в (x) равно числу nx принятых признаком Х

вариант, меньших х, деленному на объем n выборки.


Эмпирическая функция F в(x) служит для оценки теоретической функции распределения генеральной совокупности.

Значения  эмпирической  функции   F в(x)  принадлежат  промежутку

[0; 1]; ее графиком служит кусочно-постоянная кривая (рис. 1). Она имеет


скачки в точках, которые соответствуют вариантам


xi. При обработке ре-


 

 

F в (x)

1

 

 


0

x 1          x 2     x 3


 

xi                xn                                    x


Рис. 1. Кумулята и эмпирическая функция распределения.

 

зультатов эксперимента, например, результатов механических испытаний, целесообразно вместо ступенчатой кривой вычерчивать плавную кривую (на рис. 1 это штриховая линия), которая проходит через точки, располо- женные посередине вертикальных частей ступенчатой кривой [11]. Абс-


циссами этих точек служат значения механической характеристики


xi, а


ординатами — эмпирическая функция F в (x), характеризующая оценку ве-

роятности события Х £ хi.


 

 

§ 2. Расчет выборочных характеристик статистического распределения


Рассмотрим выборку объема n со значениями


x 1,


x 2,..., xn


призна-


ка Х. Для характеристики важнейших свойств статистического распреде- ления используют средние показатели, называемые выборочными число-


выми характеристиками. Если значения xi


признака Х не сгруппированы


в вариационные ряды (табл. 2, 3, 4) и объем выборки n небольшой, то


оценки для неизвестных математического ожидания а и дисперсии ходят по формулам:


s2 на-


 


n

n
x = 1  å  xi


 

(2)


i =1


для математического ожидания и

 


n

S 2 = 1  å(x - x)2


n

= 1  å  x 2 - x 2


 

(3)


n

i =1


n    i

i =1


 

для дисперсии [8].

Если результаты наблюдений сгруппированы в дискретный вариаци- онный ряд (табл. 3), то те же оценки находят по формулам:

 

x = å  x n  , i  i
k                                       k

n
 1                              n = å  ni ,                               (4)


i =1


i =1


 

k                           n

S 2 = 1  å(xi - x)2 ni = 1  å  n x 2 - x 2.                 (5)


n

i =1


n    i i

i =1


 

Несомненно, что формулы (2) и (4), как и (3) и (5) дают одинаковые результаты соответственно для x и S 2.


По формуле (5) вычисляют


S 2 в случае, если объем выборки


n ³ 50.


Если же


n < 50, то вычисляют исправленную дисперсию


S €2 по формуле:


 


S = å (x
n

ˆ 2   1

n -1

i =1


- x) 2


 

(6)


 

i
для простой выборки, или

 


k
S ˆ2  =    1    å(x   - x)2 n


(7)


n -1       i           i i =1

 

для взвешенной выборки.

Выборочное среднее квадратическое отклонение находят по форму-

лам

 


 

S =    или


S ˆ  =                                          (8)


 

при различных объемах выборки.

Для анализа вариационных рядов вычисляют такие статистики, как моду и медиану.


Модой


M o X


называют варианту, которая имеет наибольшую часто-


ту. Например, для вариационного ряда

 

xi 4 9 14 19
ni 3 7 2 5

 


мода равна


M o X


= 9.


Медианой


Me X


называют варианту, которая делит вариационный


ряд на равные по числу вариант части [2].


При нечетном объеме выборки Например, для вариационного ряда


n = 2 k + 1 медиана равна


M e X


= xk +1.


 

 

xi 3 5 8 12 15
ni 6 2 4 5 8

 

медиана равна M e X = x 13 = 12.


При четном объеме выборки


n = 2 k


медиана находится по формуле:


 


Me X


= xkxk +1 .                                        (9)


 


2
Здесь xk


— варианта, которая находится слева от середины вариа-


ционного ряда, а ционного ряда:


xk +1


— справа от нее. Например, для следующего вариа-


 

 

xi 2 5 7 10 12 14
ni 3 4 8 2 3 6

 


медиана равна


M e X


= 7.


Для вычисления выборочной средней x, выборочной дисперсии


S 2,


асимметрии As и эксцесса Ex при достаточно большом объеме выборки

(n > 30) применяют метод произведений [3]. При этом вводят условные варианты ui, которые вычисляют по формуле:

 

i
u = xi   - ,                                        (10)

h

где C = Mo X, hшаг (длина интервала).

Составляется расчетная табл. 6.


Т а бл и ца 6

  xi   ni   ui   niui   niu 2 i   niu 3 i   niu 4 i контрольный столбец ni (ui +1)2
               
строка сумм: S = S = S = S = S = S = S =

 

Контроль вычислений ведут по формуле:

i
i
å  ni + 2å niui + å n u 2 = å  ni (ui + 1)2.

 

Пользуясь табл. 6, вычисляют [3] условные начальные моменты по формулам:

 


M * = 1  å  n u


,                                      (11)


1 n    i i

M * = 1  å  n u 2,                                    (12)

2 n    i i

M * = 1  å  n u 3 ,                                    (13)

3 n    i i

M * = 1  å n u 4.                                    (14)

4 n    i i

Тогда выборочную среднюю находят по формуле:

 

1
x = M * h + C.                                        (15)

 

Выборочную дисперсию находят по формуле:

 

S 2 = (M * - M *2) h 2 .                                 (16)

2    1

 

Выборочное среднее квадратическое отклонение находят по форму-

ле:

 

S =  .                                          (17)

 

Асимметрию и эксцесс находят по формулам:


 

s   3
A = m 3 ,                                           (18)

S

x
E = m 4 - 3,                                        (19)

S 4

 


где


 

m 3 = (M * - 3 M * M * + 2 M * 3) h 3


 

 

(20)


3       2 1       1

 


— условный центральный момент третьего порядка, а

 

4
3
1
2
1
1
m 4 = (M * - 4 M * M * + 6 M * M *2 - 3 M *4 ) h 4


 

 

(21)


 

— условный центральный момент четвертого порядка.

Для характеристики колеблемости признака Х используют [2] отно- сительный показатель — коэффициент вариации V, который для положи- тельной случайной величины Х вычисляют по формуле:

 

V = S / x.                                          (22)

 

Коэффициент вариации подобного вида был предложен Пирсоном

(1895) в несколько иной форме:

 

V = 100 S / x.


 

 

 

§ 3. Интервальные (доверительные)


































































































































































Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: