Лабораторная работа №2. Анализ статистических данных средствами «Пакет анализа»

Изучение основных сведений по данному виду анализа Статистические данные, как правило, представляются в виде числовых таблиц больших размеров. Если пытаться анализировать данные, просматривая таблицу, потребуются большие затраты времени и, чаще всего, целый ряд свойств данных останется не выявленным, поскольку представление информации в виде чисел лишено наглядности и не дает конкретного визуального указания о наличии этих свойств. Более информативно для анализа использование графического отображения данных, например гистограмм. С помощью табличного процессора Microsoft Excel, либо отдельного статистического пакета программ (например, «Статистика») можно с большей экономией времени построить гистограмму и получить информацию для визуального анализа данных.
Использование гистограмм для анализа данных Гистограмма представляет собой столбиковую диаграмму частот. По горизонтальной оси диаграммы откладывают измеренные значения из набора данных, по вертикальной – частоту встречаемости этих значений. Высота каждого столбца показывает частоту (количество) значений из набора данных, принадлежащих соответствующему интервалу, равному ширине этого столбца. Визуальный анализ гистограмм позволяет выявить характер распределения данных и ответить на следующие шесть вопросов: 1. Какие значения типичны для заданного набора данных? 2. Как различаются между собой значения (диапазон значений)? 3. Сконцентрированы ли данные вокруг некоторого типичного значения? 4. Какой характер имеет эта концентрация данных? В частности, одинаков ли характер «затухания» для малых и больших значений данных? 5. Есть ли в заданном наборе такие значения, которые сильно отличаются от остальных и требуют специальной обработки (выбросы)? Можно ли сказать, что в целом это однородный набор или отчетливо наблюдается наличие групп, которые надо анализировать отдельно?
Подготовить исходные данные Взять имеющиеся последовательности случайных величин
Построить гистограмму с помощью статистического пакета Анализ данных  
1. Создать файл Гистограммы.xls.  
2. Задать метку в ячейке A1 Листе1 название последовательности СВ,  
3. Построить Таблицу 1 с последовательностью СВ  
4. Запустить пакет анализа для построения Гистограммы Сервис®Анализ данных® Гистограмма ® OK.
Выделение выбросов При анализе гистограмм иногда в данных можно наблюдать выбросы (сильно отклоняющиеся значения), т.е. такие значения, которые либо слишком велики, либо слишком малы. Существуют два вида выбросов: ошибки и корректные, но «отличающиеся» значения данных.
Исправить ошибочные значения СВ С ошибками справиться легко они сильно отличаются от остальных значений на гистограмме. В этом случае нужно перепроверить данные, найти ошибку и исправить это значение.
Проверить корректность выбросов Более сложной является проблема выбросов корректных данных. Если есть убедительное подтверждение того, что выбросы не соответствуют изучаемым данным, то их можно просто удалить и анализировать оставшиеся более согласованные между собой данные. При отсутствии достаточно обоснованного аргумента для исключения выбросов можно выполнить два различных анализа: один с учетом выбросов, другой – с исключением их. В лучшем случае может оказаться, что наличие выбросов не имеет существенного значения. Если два анализа дадут разные результаты, то выводы могут быть менее определенными и неоднозначными. В современной статистике в настоящее время разрабатываются устойчивые методы, в которых применяется мощный вычислительный аппарат для учета наличия выбросов.
Выполнить фильтрацию данных Для выполнения некоторых заданий потребуется фильтрация списка, т.е. отбор из базы данных отдельных записей по условиям фильтра. В этом случае необходимо установить курсор на любой ячейке списка и включить фильтрацию с помощью команды: Данные®Фильтр®Автофильтр В строке заголовков таблицы появятся кнопки со стрелкой. При щелчке на стрелке соответствующего заголовка откроется меню, содержащее условия отбора. Например, если необходимо отобрать записи, содержащие данные только для мужчин, то надо щелкнуть на стрелке заголовка Пол и выбрать в меню критерий М. В результате база данных будет отфильтрована, и в списке останутся только записи, соответствующие заданному критерию (записи мужчин). Теперь нужные данные можно скопировать в файл Гистограммы.xls (на Лист7) и провести анализ. После окончания анализа необходимо в файле База данных служащих.xls отменить действие фильтра. Для этого сначала выполните команду: Данные®Фильтр®Отобразить все, чтобы вывести все записи базы, а затем выключите автофильтр, повторно выполнив команду:
5. Выделить диапазон с меткой Укажите В появившемся диалоговом окне в области Входные данные Входной интервал
6. Включить метку в диапазон входного интервала.  
7. Установите флажок Метки, чтобы указать, что  
8. Установите в области Параметры вывода флажок Замечание. Если не указывать параметр Интервал карманов:, определяющий ширину столбца, то программа Excel устанавливае т равные интервалы автоматически. Количество интервалов (по умолчанию) приближенно равно квадратному корню из числа значений данных
9. Указать параметры вывода графика Вывод графика и включите параметр Выходной интервал: для вывода гистограммы на том же листе, где располагаются входные данные
10. Проверить правильность задания атрибутов
11. Определить место вывода (расположения) гистограммы - Щелкните в текстовом поле параметра Выходной интервал, - выделите ячейку D1, указывающую адрес левого верхнего угла поля вывода гистограммы. - OK. Excel разместит на листе таблицу распределения частот и гистограмму как показано ниже.
Анализировать результат
Карман Частота
5,875  
6,104167  
6,333333  
6,5625  
6,791667  
7,020833  
Еще  

Таблица распределения частот включает исходные карманы (Интервалы).

Значения карманов указывают правые границы интервалов.

Например, карману со значением 6,5625 соответствует интервал (6,333333; 6,5625].

В данный интервал попали 4 значения СВ.

На гистограмме Excel размещает значения карманов по оси Х в середине интервалов, а не у отметок, разделяющих интервалы

Отформатировать гистограммы. Выполняется для того, чтобы гистограмма была удобочитаемой и имела обычный вид, проведите
12. Измените размеры диаграммы так, чтобы она разместилась в диапазоне G1:L16.
13. Удалите легенду Для этого щелкните по легенде Частота (справа от гистограммы) и нажмите клавишу [Delete].
14. Устранения зазоров между столбцами гистограммы, - дважды щелкните на любом столбце, - выберите в появившемся диалоговом окне вкладку Параметры, - установите нулевое значение параметра Ширина зазора и - щелкните на кнопке OK.
15. Выполнить анализ резульатов
Карман Частота
5,9  
6,1  
6,3  
6,6  
6,8  
7,0  
Еще  
Определить размах значений СВ Определить минимальную величину Определить максимальную величину Вычислить размах Размах процентных ставок определяется по левой и правой границам гистограммы.
Определить типичные значения СВ Типичным значениям соответствует самый высокий столбец гистограммы. Наиболее часто встречаются ставки в интервале от 6,8% до 7,0% (26 из 45 организаций предлагают ставки в данном интервале).
Определить Рассеяние (типичную разницу) Рассеяние указывает разницу между типичным значением и остальными значениями, т.е. характеризует, как отстоят другие столбцы относительно самого высокого столбца (типичного).
Общая конфигурация данных Большинство организаций сконцентрировано правее середины диапазона процентных ставок (здесь самые высокие столбцы) и немного организаций предлагают либо очень низкие, либо очень высокие ставки (короткие столбцы слева и справа от типичного столбца).
Выделить Характерные особенности Пропуски, локальные концентрации частот и т.п.
Выявление нормального распределения Обычно в статистике предполагают, что распределение данных приблизительно соответствует нормальному. Это объясняется тем, что многие стандартные методы статистического анализа, например, вычисление доверительных интервалов или проверка статистических гипотез, требуют нормального распределения данных (хотя бы приблизительно). Зная свойства нормального распределения и изучив внимательно гистограмму, важно определить, являются ли данные нормально распределенными. Теоретически нормальное распределение представляет собой гладкую гистограмму в форме колокола без случайных отклонений. Кривая нормального распределения задается функцией плотности распределения: , где a и σ 2 – параметры распределения: a – математическое ожидание; σ 2 – дисперсия данной случайной величины. Для идеального набора нормально распределенных данных такая кривая имеет следующий вид: Как видим, большинство чисел сконцентрировано в средней части диапазона значений (центр колокола a), а оставшиеся значения с затуханием симметрично располагаются по обе стороны от вершины колокола. Величина σ характеризует ширину (масштаб) колокола. Фактически существует много кривых нормального распределения, форма которых напоминает симметричный колокол. Эти кривые отличаются друг от друга расположением центра и масштабом σ. Ниже показаны кривые нормального распределения, построенные в разных масштабах. Поскольку реальные наборы нормально распределенных данных носят случайный характер, то они не имеют идеальную степень гладкости гистограмм и содержат некоторые случайные отклонения от теоретической кривой.

Контрольные вопросы

1. Какие шесть свойств набора данных можно выявить при визуальном анализе гистограммы?

2. Что такое нормальное распределение? Почему нормальное распределение играет важную роль в статистике?

3. Если реальный набор данных распределен нормально, то можно ли ожидать, что гистограмма будет иметь идеально гладкую форму в виде колокола?

4. Что такое ассиметричное распределение? Как можно во многих случаях решить проблему ассиметрии?

5. Что такое бимодальное распределение? Что следует предпринять в случае бимодального распределения?

6. Что такое выброс? Какие виды выбросов могут наблюдаться?

7. В каких случаях выбросы можно не учитывать и анализировать только остальные данные?

8. Какие действия нужно предпринять, если при анализе необходимо учитывать наличие выбросов?



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: