Понятие выборки

Математическая статистика в задачах управления рисками

При оценке риска и при любых других видах анализа влияний факторов внешней среды на показатели здоровья в распоряжении исследователя имеются конечные наборы измерений каждого из интересующих его показателей. Такие наборы данных называются выборками.

Случайная выборка, или выборка X объема n, определяется как конечная совокупность значений х1, х2,..., хп случайной величины ξ, полученных в n независимых испытаниях. Элементы выборки х1, х2,..., хп называют также наблюдениями. Процесс получения случайной выборки можно представить как извлечение наудачу элементов из генеральной совокупности значений, в которой различные значения содержатся в пропорциях, соответствующих распределению случайной величины. Информация, содержащаяся в выборке, рассматривается как информация обо всей генеральной совокупности и служит для построения выводов, относящихся к случайной величине в целом. Конкретную выборку можно рассматривать как одну из всех возможных выборок объема n, т. е. как n -мерную случайную величину, каждая из компонент которой имеет одинаковое распределение. Из условия независимости отдельных испытаний следует, что совместная функция распределения компонент выборки равна произведению функций распределения отдельных компонент.

Выборка может быть представлена различными способами:

— в виде набора значений в той последовательности, в какой они были получены в испытаниях;

— в виде последовательности значений, упорядоченной по возрастанию (такой способ представления называется вариационным рядом,

— в виде таблиц, в которых каждому из различных значений хі, полученных в испытаниях, поставлено в соответствие число его появлений (nі,) или же число появлений, деленное на число испытаний, т. е. относительная частота появлений данного значения (рі,), — такой способ представления наиболее удобен для дискретных случайных величин с небольшим числом значений.

Для непрерывных случайных величин последний способ представления выборок неудобен, поскольку в точности повторяющиеся значения в выборке могут отсутствовать или же встречаться крайне редко. Поэтому для построения частотных таблиц диапазон изменения наблюдений разбивают на N равных интервалов и подсчитывают число наблюдений, попавших в каждый интервал. Выбор числа интервалов, а также границ диапазона изменений достаточно произволен. На практике для описания распределения наиболее полезным оказывается выбор N в пределах от 5 до 12; при очень большом числе наблюдений N не более 20. Не следует делать интервалы настолько узкими, чтобы в какие-либо из них попадало слишком мало (меньше 5) значений. Некоторые статистические пакеты в процедурах, работающих с интервальными разбиениями выборок, обеспечивают автоматическое объединение интервалов, содержащих малое число наблюдений.

Помимо таблиц широко используются графические методы представления распределения выборки на основе интервального разбиении диапазона наблюдений. Гистограммой называется изображение распределения в виде столбчатого графика, на котором каждому интервалу соответствует столбик, высота которого равна числу элементов выборки, находящихся в данном интервале (гистограмма абсолютных значений), или же частота попаданий в интервал (гистограмма относительных частот). Гистограмма относительных частот представляет собой выборочный аналог плотности распределения. В частности, сумма площадей всех столбиков гистограммы равна 1, как и для функции плотности распределения. Если на графике различным интервалам соответствуют точки на оси абсцисс (обычно — середины интервалов), а число попаданий в і -ый интервал (или же частота) изображается в виде точки с координатами (хі, уі), так что уі = nі (или уі = рі), и все эти точки соединены ломаной линией, то такой график называется полигоном частот (соответственно, в абсолютных или относительных величинах). Полигон частот, как и гистограмма, служит для наглядного представления распределения выборки (рис. 4.19, 4.20).


Рис. 4.19. Полигон частот выборочного Рис. 4.20. Гистограмма частот

распределения выборочного распределения

График выборочного распределения в виде гистограммы или полигона частот дает наглядное представление о наиболее вероятных значениях и разбросе случайной величины, а также позволяет качественно оценить, насколько приемлемо предположение о нормальном характере распределения. Эта информация необходима для оптимального выбора методов статистического анализа. Поэтому построение таких графиков является полезным начальным шагом при анализе рисков.

Для любого распределения, плотность которого задана в виде функции с некоторыми параметрами, можно определить те значения параметров, которые обеспечивают наилучшее соответствие между гистограммой и теоретической плотностью распределения. На приведенном в предыдущем параграфе рис. 4.10 показаны результаты определения вида распределения путем подгонки параметров различных теоретических распределений для выборочной гистограммы. Все специализированные статистические пакеты содержат процедуры подгонки параметров для широкого набора распределений, наиболее часто встречающихся на практике.

Если порядок элементов одной выборки однозначно связан с порядком элементов другой выборки (например, две выборки содержат значения систолического давления, измеренного у одних и тех же обследуемых до и после выполнения эмоционально напряженной работы, или же среднегодовые показатели загрязнения воздуха и общей заболеваемости, определяемые на исследуемой территории на протяжении 10 лет), такие выборки называются попарно связанными. Попарно связанные выборки имеют одинаковый объем. Две выборки, порядок элементов в которых не связан, (например, значения артериального давления, измеренные в двух разных группах обследуемых), называются независимыми.

В прикладной статистике случайные величины, а также их выборки часто называют переменными, подчеркивая таким обозначением присущую им вариабельность.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: