Выборочные аналоги интегральной и дифференциальной функций распределения. Полигон и гистограмма

Закон распределения (или просто распределение) случайной величины можно задать различными способами. Например, дискретную случайную величину можно задать с помощью или ряда распределения, или интегральной функции, а непрерывную случайную величину – с помощью или интегральной, или дифференциальной функции. Рассмотрим выборочные аналоги этих двух функций.

В теории вероятностей для характеристики распределения случайной величины Х служит интегральная функция распределения F(x) = P(X<x). В дальнейшем, если величина Х распределена по некоторому закону F(x), будем говорить, что и генеральная совокупность распределена по закону F(x). Введём выборочный аналог функции F(x).

Пусть имеется выборочная совокупность значений некоторой случайной величины Х объёма n и каждому варианту из этой совокупности поставлена в соответствие его частость. Пусть, далее, х – некоторое действительное число, а mx – число выборочных значений случайной величины Х, меньших х. Тогда число mx / n является частостью наблюдаемых в выборке значений величины Х, меньших х, т.е. частостью появления события Х<х. При изменении х в общем случае будет изменяться и величина mx / n. Это означает, что относительная частота mx / n является функцией аргумента х. А т.к. эта функция находится по выборочным данным, полученным в результате опытов, то её называют выборочной или эмпирической.

Выборочной функцией распределения (или функцией распределения выборки) называется функция *, задающая для каждого значения х относительную частоту события Х<х.

Итак, по определению, *= mx / n, где n – объём выборки, mx – число выборочных значений случайной величины Х, меньших х. В отличие от выборочной функции * интегральную функцию F(x) генеральной совокупности называют теоретической функцией распределения. Главное различие функций F(x) и * состоит в том, что теоретическая функция распределения F(x) определяет вероятность события Х<х, а выборочная функция – относительную частоту этого события.

Свойство статистической устойчивости частоты, обоснованное теоремой Бернулли, оправдывает целесообразность использования функции F(x)* при больших n в качестве приближённого значения неизвестной функции F(x).

В заключение отметим, что функция F(x) и её выборочный аналог F(x)* обладают одинаковыми свойствами. Действительно, из определения функции F(x)* имеем следующие свойства:

1. 0 ≤ F*(x) ≤ 1

2. F*(x) – неубывающая функция.

3. F*(-∞) = 0, F(∞) = 1.

Такими же свойствами обладает и функция F(x).

Пример 1. Построим выборочную функцию распределения по данным табл. 1:

Таблица 1.

Индекс i              
Число неправильных соединений в минуту xi              
Частота mi              
Частость p*i 8/60 17/60 16/60 10/60 6/60 2/60 1/60

Объём выборки по условию равен 60, т.е. n = 60. Наименьший вариант равен 0, значит, mx = 0 при х ≤ 0. Тогда mx/n = 0/60 = 0, т.е. F*(x)=0 при х ≤0. Если 0< х ≤1, то неравенство Х<х выполняется при условии, что Х =0. Так как этот вариант встречается в выборке 8 раз, то mx/n =8/60= р *1, т.е. F*(x) =8/60. Если 1< х ≤2, то неравенство Х<х выполняется при условии, что Х =0 или Х =1. Так как вариант х 1=0 встречается 8 раз, а вариант х 2=1 – 17 раз, то mx/n =(8+17)/60=25/60, т.е. F*(x) = р *1+ р *2=25/60 и т.д. В результате получаем искомую функцию распределения, значения которой представим в виде табл. 2:

Таблица 2.

х F*(x)
х ≤0  
0< х ≤1 p*1=8/60
1< х ≤2 p*1 + p*2 = 25/60
2< х ≤3 p*1 + p*2 +p*3 = 41/60
3< х ≤4 p*1 + p*2 + p*3 + p*4 = 51/60
4< х ≤5 p*1 + p*2 + p*3 + p*4 + p*5 = 57/60
5< х ≤7 p*1 + p*2 + p*3 + p*4 + p*5 + p*6 = 59/60
х >7 p*1 + p*2 + p*3 + p*4 + p*5 + p*6 + p*7=60/60=1

Функцию F*(x) наряду с табличным способом задания (см. табл. 2) можно задать аналитически. В этом случае F*(x) определяется так:

0 при х≤х 1,

F*(x) = при xi -1< xxi, i = 1, 2, 3, …, v, (1)

1 при x>xv.

Здесь xv совпадает с х наиб. Частости обычно называются накопленными частостями.

В рассматриваемом примере функция F*(x) построена по дискретному вариационному ряду и для дискретной случайной величины. Если результаты наблюдений представлены в виде интервального вариационного ряда, то выборочную функцию распределения построить в том виде, в каком это было сделано в примере 1, уже не представляется возможным. Рассмотрим на примере построение функции F*(x) по интервальному вариационному ряду для непрерывной случайной величины.

Пример 2. Используя данные табл.3, построим выборочную функцию распределения.

Очевидно, что всех х [6,67; 6,69]. В этом случае число mx/n не определено, т.к. неизвестно, сколько выборочных значений случайной величины, принадлежащих этому интервалу, меньше х. Если х =6,69, то mx =2э Следовательно, F* (6,69)=2/200=0,01. Рассуждая аналогично, убеждаемся, что

Таблица 3.

№ п/п Диаметр валика после шлифовки (интервалы), мм Частота mi Частость, p*i
  6,67 – 6,69   0,010
  6,69 – 6,71   0,075
  6,71 – 6,73   0,085
  6,73 – 6,75   0,220
  6,75 – 6,77   0,260
  6,77 – 6,79   0,220
  6,79 – 6,81   0,070
  6,81 – 6,83   0,055
  6,83 – 6,85   0,005
     

точками, в которых значение функции F(x) можно определить, являются правые концы интервалов и все точки интервала [6,85; ∞]. Определяем теперь значение функции F*(x) в указанных точках и запишем в виде табл. 4.

Таблица 4.

x 6,67 6,69 6,71 6,73 6,75 6,77 6,79 6,81 6,83 6,85
F*(x)   0,010 0,085 0,170 0,390 0,650 0,870 0,940 0,995  

Так как эта таблица определяет функцию F*(x) не полностью (не для всех х известны её значения), то при графическом изображении данной функции целесообразно её доопределить, соединив точки графика, соответствующие концам интервалов, отрезками прямой. В результате график функции F*(x) будет представлять собой непрерывную линию. Отметим, что подобный график выборочной функции F*(x), дающий приближённое представление графике теоретической функции F*(x), часто называют кумулятивной кривой (от англ. аccumulation – накопление).

Для интегральной функции распределения F(x) справедливо приближённое равенство F(x+Δx)F(x)f(x) Δ x, где f(x) – дифференциальная функция распределения или функция плотности вероятности. Из этого равенства следует, что f(x) ≈(F(x+Δx)F(x))/Δ х. Поэтому естественно выборочным аналогом функции f(x) считать функцию

f*(x) = , (2)

где F*(x+Δx)F*(x) – частость попадания наблюдаемых значений случайной величины Х в интервал [ х, хх ]. Таким образом, значение f(x) характеризует плотность частости на этом интервале.

Пусть наблюдаемые над непрерывной случайной величиной данные представлены в виде интервального вариационного ряда. Полагая, что р *1 – частость попадания наблюдаемых значений случайной величины в интервал [ ai; ai + h ], где h – длина частичного интервала, и учитывая равенство (2), для х [ ai; ai + h ] запишем f(x) = p*i / h. Тогда выборочную функцию плотности f(x) можно задать соотношением

0 при х<а 1,

f(x) = p*i / h при ai≤x<ai+1, i =1, 2, 3, …, v,

0 при хav +1,

где av +1 – конец последнего v -го интервала.

Наблюдаемые данные, представленные в виде вариационного ряда, можно изобразить графически, используя не только функцию F*(x). К наиболее распространённым видам графического изображения вариационных рядов относятся полигон и гистограмма. Графическое изображение рядов с помощью полигона или гистограммы позволяет получить наглядное представление о закономерности варьирования наблюдаемых значений случайной величины.

Полигон обычно используют для изображения дискретного вариационного ряд. Для его построения в прямоугольной системе координат наносят точки с координатами (xi; mi) или (xi; p*i), где xi – значение i -го варианта, а mi (p*i) – соответствующие частоты (частости). Затем отмеченные точки соединяют отрезками прямой линии. Полученная ломаная называется полигоном.

Если полигон частостей построен по дискретному вариационному ряду дискретной случайной величины, то его называют многоугольником распределения частостей, который является выборочным аналогом многоугольника распределения вероятностей. Заметим, что сумма ординат многоугольника распределения частостей, как и у многоугольника распределения вероятностей, равна 1, т.к. ∑ p*i =1.

Гистограмма служит только для изображения интервальных вариационных рядов. Для её построения в прямоугольной системе координат на оси Ох откладывают отрезки, изображающие частичные интервалы варьирования, и на этих отрезках, как на основаниях, строят прямоугольники с высотами, равными частотам или частостям соответствующих интервалов. В результате такой операции получают ступенчатую фигуру, состоящую из прямоугольников, которую называют гистограммой.

Для графического изображения интервального вариационного ряда можно использовать полигон, если этот ряд преобразовать в дискретный. В этом случае интервалы заменяют их серединными значениями и ставят им в соответствие интервальные частоты (частости). Для полученного дискретного ряда строят полигон.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: