Построение выборки данных

На практике при проведении исследований часто ограничиваются только выборочным набором объектов из генеральной совокупности, т.е. выборкой. Работа с выборкой существенно экономит время и средства.

Случайная выборка строится таким образом, чтобы каждый объект генеральной совокупности имел одинаковую вероятность быть выбранным, и при этом объекты отбираются независимо друг от друга. Существует два основных типа случайной выборки: выборка без возврата (любой объект не может попасть в выборку более одного раза) и выборка с возвратом (объект может попасть в выборку более одного раза, т.е. после выбора объект снова возвращается в генеральную совокупность).

Для получения систематической выборки в генеральной совокупности определяют случайную начальную точку и отбирают элементы, начиная с этой точки через постоянный интервал (с постоянным шагом отбора). Для того чтобы из совокупности N получить систематическую выборку размером n, необходимо выбирать элементы с шагом N / n. Данный метод используется в том случае, когда есть предварительно пронумерованные списки, платежные поручения, приходные и расходные чеки и т.д., в подобных случаях он быстрее и проще, чем метод простой случайной выборки.

В Excel реализованы случайная выборка с возвратом и систематическая выборка с помощью функции Выборка. Вызвать эту функцию можно в окне диалога Анализ данных. В этом случае появится диалоговое окно Выборка (рис. 5.2).

Рис. 5.2. Моделирование выборки

В диалоговом окне необходимо задать следующие параметры:

1. Входной интервал - вводится диапазон ячеек, содержащих анализируемые данные.

2. Переключатель в группе Метод выборки для случайной выборки с возвратом должен быть установлен в положение Случайный. В поле Число выборок вводится количество размещаемых в выходном столбце случайных значений (размер выборки). Для формирования систематической выборки следует выбрать переключатель Периодический и в поле Период указать шаг отбора, элементы будут отбираться через постоянный интервал.

3. Параметры вывода – указывается место, где будет сгенерирована выборка.

Анализ данных

Для того чтобы обнаружить общие свойства совокупности данных, выявить закономерности, тенденции развития процесса и в результате прийти к правильным выводам, необходимы обобщающие количественные показатели. Эти показатели можно условно разделить на четыре группы:

1. Показатели, которые описывают закон распределения данных: таблицы частот, полигоны, гистограммы.

2. Показатели уровня - описывают положение данных на числовой оси: минимальный и максимальный элементы выборки, верхний и нижний квартили, перцентиль, различные средние и другие характеристики.

3. Показатели рассеивания – описывают степень разброса данных относительно своего центра: дисперсия, среднеквадратичное отклонение, размах выборки.

4. Показатели асимметрии – характеризуют симметрию распределения данных около своего центра: коэффициент асимметрии, эксцесс.

Гистограмма

Для графического отображения данных, представляющих вариационный ряд можно построить гистограмму – столбчатую диаграмму частот.

По оси абсцисс откладываются значения интервалов, а по оси ординат – частоты в виде столбиков, высота которых соответствует частоте попадания случайной величины в интервал.

В Excel для построения гистограммы применяется функция Гистограмма. Вызвать эту функции можно в окне диалога Анализ данных. Появится диалоговое окно Гистограмма (рис. 5.3).

Рис. 5.3. Построение гистограммы

В диалоговом окне Гистограмма задаются следующие параметры:

1. Входной интервал - вводится диапазон ячеек, содержащих анализируемые данные.

2. В поле Интервал карманов вводится диапазон ячеек, содержащих значения границ интервалов (параметр является необязательным, в этом случае набор интервалов создается автоматически).

3. Параметры вывода – указывается место, где будет указана таблица частот.

4. Для вывода гистограммы следует установить флажок опции Вывод графика. Флажки опций Парето (отсортированная гистограмма) и Интегральный процент (накопленные) частоты следует оставить сброшенными.

Показатели уровня

Средняя арифметическая: для расчета используется функция =СРЗНАЧ(число1;число2;…) из категории Статистические.

Средняя геометрическая: , для расчета используется функция =СРГЕОМ(число1;число2;…) из категории Статистические.

Медиана: величина, которая соответствует варианту, находящемуся в середине ранжированного ряда.

Пример. Для ряда 1,2,3,3,6,7,8,8,10 медианой будет величина, которая расположена в центре ряда, т.е. пятая величина, действительно значение функции =МЕДИАНА(1;2;3;3;6;7;8;8;10) равно 6.

Мода: значение признака, которое встречается наиболее часто среди элементов совокупности, для расчета используется функция =МОДА(число1;число2;…) из категории Статистические.

Минимум: для расчета используется функция =МИН(число1;число2;…) из категории Статистические.

Максимум: для расчета используется функция =МАКС(число1;число2;…) из категории Статистические.

Ранг: номер (порядковое место) значения случайной величины в наборе данных.

Перцентиль: обобщает информацию о рангах, характеризуя значение, достигаемое заданным процентом общего количества данных, т.е. являются характеристиками набора данных, которые выражают ранги элементов в виде процентов.

Для расчета рангов и перцентилей используется функция Ранг и перцентиль.

Для вызова этой функции необходимо в окне диалога Анализ данных выбрать соответствующую функцию. Появится диалоговое окно Ранг и перцентиль (рис. 5.4).

Рис.5.4. Ранг и перцентиль

В диалоговом окне (рис. 5.4) задаются следующие параметры:

1. Входной интервал - вводится диапазон ячеек, содержащих анализируемые данные.

2. Группирование – по строкам и столбцам в зависимости от расположения данных во входном диапазоне.

3. Метки в первой строке – флажок ставится, если первая строка содержит заголовок, в противном случае будут созданы стандартные заголовки автоматически.

4. Параметры вывода – указывается место, где будет указана таблица рангов и перцентилей.

Показатели рассеяния

Размах выборки – разности между максимальным и минимальным значением.

Среднее линейное отклонение – среднее арифметическое из абсолютных значений отклонений от средней: . Для расчета среднего линейного отклонения используется функция =СРОТКЛ(число1;число2;…) из категории Статистические.