На практике при проведении исследований часто ограничиваются только выборочным набором объектов из генеральной совокупности, т.е. выборкой. Работа с выборкой существенно экономит время и средства.
Случайная выборка строится таким образом, чтобы каждый объект генеральной совокупности имел одинаковую вероятность быть выбранным, и при этом объекты отбираются независимо друг от друга. Существует два основных типа случайной выборки: выборка без возврата (любой объект не может попасть в выборку более одного раза) и выборка с возвратом (объект может попасть в выборку более одного раза, т.е. после выбора объект снова возвращается в генеральную совокупность).
Для получения систематической выборки в генеральной совокупности определяют случайную начальную точку и отбирают элементы, начиная с этой точки через постоянный интервал (с постоянным шагом отбора). Для того чтобы из совокупности N получить систематическую выборку размером n, необходимо выбирать элементы с шагом N / n. Данный метод используется в том случае, когда есть предварительно пронумерованные списки, платежные поручения, приходные и расходные чеки и т.д., в подобных случаях он быстрее и проще, чем метод простой случайной выборки.
|
|
В Excel реализованы случайная выборка с возвратом и систематическая выборка с помощью функции Выборка. Вызвать эту функцию можно в окне диалога Анализ данных. В этом случае появится диалоговое окно Выборка (рис. 5.2).
Рис. 5.2. Моделирование выборки
В диалоговом окне необходимо задать следующие параметры:
1. Входной интервал - вводится диапазон ячеек, содержащих анализируемые данные.
2. Переключатель в группе Метод выборки для случайной выборки с возвратом должен быть установлен в положение Случайный. В поле Число выборок вводится количество размещаемых в выходном столбце случайных значений (размер выборки). Для формирования систематической выборки следует выбрать переключатель Периодический и в поле Период указать шаг отбора, элементы будут отбираться через постоянный интервал.
3. Параметры вывода – указывается место, где будет сгенерирована выборка.
Анализ данных
Для того чтобы обнаружить общие свойства совокупности данных, выявить закономерности, тенденции развития процесса и в результате прийти к правильным выводам, необходимы обобщающие количественные показатели. Эти показатели можно условно разделить на четыре группы:
1. Показатели, которые описывают закон распределения данных: таблицы частот, полигоны, гистограммы.
2. Показатели уровня - описывают положение данных на числовой оси: минимальный и максимальный элементы выборки, верхний и нижний квартили, перцентиль, различные средние и другие характеристики.
|
|
3. Показатели рассеивания – описывают степень разброса данных относительно своего центра: дисперсия, среднеквадратичное отклонение, размах выборки.
4. Показатели асимметрии – характеризуют симметрию распределения данных около своего центра: коэффициент асимметрии, эксцесс.
Гистограмма
Для графического отображения данных, представляющих вариационный ряд можно построить гистограмму – столбчатую диаграмму частот.
По оси абсцисс откладываются значения интервалов, а по оси ординат – частоты в виде столбиков, высота которых соответствует частоте попадания случайной величины в интервал.
В Excel для построения гистограммы применяется функция Гистограмма. Вызвать эту функции можно в окне диалога Анализ данных. Появится диалоговое окно Гистограмма (рис. 5.3).
Рис. 5.3. Построение гистограммы
В диалоговом окне Гистограмма задаются следующие параметры:
1. Входной интервал - вводится диапазон ячеек, содержащих анализируемые данные.
2. В поле Интервал карманов вводится диапазон ячеек, содержащих значения границ интервалов (параметр является необязательным, в этом случае набор интервалов создается автоматически).
3. Параметры вывода – указывается место, где будет указана таблица частот.
4. Для вывода гистограммы следует установить флажок опции Вывод графика. Флажки опций Парето (отсортированная гистограмма) и Интегральный процент (накопленные) частоты следует оставить сброшенными.
Показатели уровня
Средняя арифметическая: для расчета используется функция =СРЗНАЧ(число1;число2;…) из категории Статистические.
Средняя геометрическая: , для расчета используется функция =СРГЕОМ(число1;число2;…) из категории Статистические.
Медиана: величина, которая соответствует варианту, находящемуся в середине ранжированного ряда.
Пример. Для ряда 1,2,3,3,6,7,8,8,10 медианой будет величина, которая расположена в центре ряда, т.е. пятая величина, действительно значение функции =МЕДИАНА(1;2;3;3;6;7;8;8;10) равно 6.
Мода: значение признака, которое встречается наиболее часто среди элементов совокупности, для расчета используется функция =МОДА(число1;число2;…) из категории Статистические.
Минимум: для расчета используется функция =МИН(число1;число2;…) из категории Статистические.
Максимум: для расчета используется функция =МАКС(число1;число2;…) из категории Статистические.
Ранг: номер (порядковое место) значения случайной величины в наборе данных.
Перцентиль: обобщает информацию о рангах, характеризуя значение, достигаемое заданным процентом общего количества данных, т.е. являются характеристиками набора данных, которые выражают ранги элементов в виде процентов.
Для расчета рангов и перцентилей используется функция Ранг и перцентиль.
Для вызова этой функции необходимо в окне диалога Анализ данных выбрать соответствующую функцию. Появится диалоговое окно Ранг и перцентиль (рис. 5.4).
Рис.5.4. Ранг и перцентиль
В диалоговом окне (рис. 5.4) задаются следующие параметры:
1. Входной интервал - вводится диапазон ячеек, содержащих анализируемые данные.
2. Группирование – по строкам и столбцам в зависимости от расположения данных во входном диапазоне.
3. Метки в первой строке – флажок ставится, если первая строка содержит заголовок, в противном случае будут созданы стандартные заголовки автоматически.
4. Параметры вывода – указывается место, где будет указана таблица рангов и перцентилей.
Показатели рассеяния
Размах выборки – разности между максимальным и минимальным значением.
Среднее линейное отклонение – среднее арифметическое из абсолютных значений отклонений от средней: . Для расчета среднего линейного отклонения используется функция =СРОТКЛ(число1;число2;…) из категории Статистические.
|
|
Среднее квадратическое отклонение (ско). Для расчета используется функция =СТАНДОТКЛОН(число1;число2;…) из категории Статистические.
Дисперсия. Для расчета используется функция =ДИСП(число1;число2;…) из категории Статистические.