Исследование больших выборок. Кластерный анализ в электронной таблице Excel и пакете Statistica

Рассмотренные в лабораторной работе 2 распределения вероятностей СВ опираются на знание закона распределения СВ. Для практических задач такое знание – редкость. Здесь закон распределения обычно неизвестен, или известен с точностью до некоторых неиз­вестных параметров. В частности, невозможно рассчитать точное значение соот­ветствующих вероятностей, так как нельзя определить количество общих и благо­приятных исходов. Поэтому вводится статистическое определение вероятности. По этому определению вероятность равна отношению числа испытаний, в ко­торых событие произошло, к общему числу произведенных испытаний. Такая вероятность называется статистической частотой.

Связь между эмпирической функцией распределения и функцией распределения (теоретической функцией распределения) такая же, как связь между частотой со­бытия и его вероятностью.

Для построения выборочной функции распределения весь диапазон изменения случайной величины X (выборки) разбивают на ряд интервалов (карманов) одинаковой ширины. Число интервалов обычно выбирают не менее 3 и не более 15. Затем определяют число значений случайной величины X, попавших в каждый интервал (абсолютная частота, частота интервалов).

Частота интервалов – число, показывающее сколько раз значения, относящиеся к каждому интервалу группировки, встречаются в выборке. Поделив эти чис­ла на общее количество наблюдений (n), находят относительную частоту (частость) попадания случайной величины X в заданные интервалы.

По найденным относительным час­тотам строят гистограммы выборочных функций распределения. Гистограмма распределения частот – это графическое представление выборки, где по оси абсцисс (ОХ) отложены величины интервалов, а по оси ординат (ОУ) – величины частот, попадающих в данный классовый интервал. При увеличении до бесконечности размера выборки выборочные функции распределения превращаются в теоретические: гистограмма превращается в график плотности распределения.

Накопленная частота интервалов – это число, полученное последовательным суммированием частот в направлении от первого интервала к последнему, до того интервала включительно, для которого определяется накопленная частота.

В Excel для построения выборочных функций распределения используются спе­циальная функция ЧАСТОТА и процедура Гистограмма из пакета анализа.

Функция ЧАСТОТА (массив_данных, двоичный_массив) вычисляет частоты появления случайной величины в интер­валах значений и выводит их как массив цифр, где

массив_данных — это массив или ссылка на множество данных, для которых
вычисляются частоты;

двоичный_массив — это массив интервалов, по ко­торым группируются значения выборки.

Процедура Гистограмма из Пакета анализа выводит результаты выборочного распределения в виде таблицы и графика. Параметры диалогового окна Гистограмма:

Входнойдиапазон - диапазон исследуемых данных (выборка);

Интервалкарманов - диа­пазон ячеек или набор граничных значений, определяющих выбранные интервалы (карманы). Эти значения должны быть введены в воз­растающем порядке. Если диапазон карманов не был введен, то набор интерва­лов, равномерно распределенных между минимальным и максимальным зна­чениями данных, будет создан автоматически.

выходнойдиапазон предназначен для ввода ссылки на левую верхнюю ячейку выходного диапазона.

• переключатель Интегральныйпроцент позволяет установить режим включения в гистограмму гра­фика интегральных процентов.

• переключатель Выводграфика позволяет установить режим автоматическо­го создания встроенной диаграммы на листе, содержащем выходной диапа­зон.

Пример1. Построить эмпирическое распределение веса студентов в килограм­мах для следующей выборки: 64, 57, 63, 62, 58, 61, 63, 70, 60, 61, 65, 62, 62, 40, 64, 61, 59, 59, 63, 61.

Решение

1. В ячейку А1 введите слово Наблюдения, а в диапазон А2:А21 — значения веса
студентов (см. рис. 1).

2. В ячейку В1 введите названия интервалов Вес, кг. В диапазон В2:В8 введите граничные значения ин­тервалов (40, 45, 50, 55, 60, 65, 70).

3. Введите заголовки создаваемой таблицы: в ячейки С1 — Абсолютныечас­тоты, в ячейки D1 — Относительныечастоты, в ячейки E1 — Накоплен­ныечастоты. (см. рис. 1).

4. С помощью функции Частота заполните столбец абсолютных частот, для этого выделите блок ячеек С2:С8. С па­нели инструментов Стандартная вызовите Мастерфункций (кнопка fx). В появив­шемся диалоговом окне выберите категорию Статистические и функцию ЧАСТОТА, после чего нажмите кнопку ОК. Указателем мыши в рабочее поле Массив_данных введите диапазон данных наблюдений (А2:А8). В рабочее поле Двоичный_массив мышью введите диапазон интервалов (В2:В8). Слева на клавиатуре последовательно нажмите комбинацию клавиш Ctrl+Shift+Enter. В столбце C должен появиться мас­сив абсолютных частот (см. рис.1).

5. В ячейке C9 найдите общее количество наблюдений. Активизируйте ячейку С9, на панели инструментов Стандартная нажмите кнопку Ав­тосумма. Убедитесь, что диапазон суммирования указан правильно и нажмите клавишу Enter.

6. Заполните столбец относительных частот. В ячейку введите формулу для вычисления относительной частоты: =C2/$C$9. Нажмите клавишу Enter. Протягиванием (за правый нижний угол при нажатой левой кнопке мыши) скопируйте введенную формулу в диапазон и получите массив относительных частот.

7. Заполните столбец накопленных частот. В ячейку D2 скопируйте значение от­носительной частоты из ячейки E2. В ячейку D3 введите формулу: =E2+D3. Нажмите клавишу Enter. Протягиванием (за правый нижний угол при нажатой левой кнопке мыши) скопируйте введенную формулу в диапазон D3:D8. Получим массив накопленных частот.

Рис. 1. Результат вычислений из примера 1

8. Постройте диаграмму относительных и накопленных частот. Щелчком ука­зателя мыши по кнопке на панели инструментов вызовите Мастердиаграмм. В появившемся диалоговом окне выберите закладку Нестандартные и тип диаг­раммы График / гистограмма. После редактирования диаграмма будет иметь такой вид, как на рис. 2.

Рис. 2 Диаграмма относительных и накопленных частот из примера 1


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: