Первичный взгляд на данные. Графическая визуализация данных выборки. Диаграмма рассеяния

Качество данных, подлежащих анализу, должно быть предварительно оценено. Если есть возможность, должны быть просмотрены альтернативные источники (архивы) данных. Полезно знать природу данных, какие методы применялись для их сбора, имеется ли возможность расширить выборку и т.п. Данные могут быть приняты, по тем или иным соображениям, как выборка из известной генеральной совокупности или получены модельным путем. Модельный путь формирования выборки, принадлежащей определенной генеральной совокупности, – получение данных с помощью специальной компьютерной программы – генератора случайных чисел. Обычно, генераторы случайных чисел позволяют получить наиболее распространенные типы распределений – равномерное, гауссово, Пуассона, биномиальное и т.д. Следует знать, что не все программные реализации генераторов случайных (правильнее – псевдослучайных) чисел гарантируют хорошего качества модельную выборку с заданным типом распределения. В состав надстройки «Пакет анализа» MS Excel входит утилита

Генерация случайных чисел. Используется для заполнения диапазона случайными числами, извлеченными из одного или нескольких распределений. С помощью данной процедуры можно моделировать объекты, имеющие случайную природу, по известному распределению вероятностей. Например, можно использовать нормальное распределение для моделирования совокупности данных по росту индивидуумов, или использовать распределение Бернулли для двух вероятных исходов, чтобы описать совокупность результатов бросания монеты.

В ряде случаев, особенно когда объем выборки достаточно велик и никаких разумных предположений относительно природы генеральной совокупности не имеется, полезно принять сами данные за «генеральную совокупность» и работать с выборками из нее. (Этот путь годится, если не противоречит смыслу задачи.) В состав пакета анализа MS Excel входит утилита

Выборка. Создает выборку из генеральной совокупности, рассматривая входной диапазон (данные) как генеральную совокупность. Если совокупность слишком велика для обработки или построения диаграммы, можно использовать представительную выборку. Кроме того, если предполагается периодичность входных данных, то можно создать выборку, содержащую значения только из отдельной части цикла. Например, если входной диапазон содержит данные для квартальных продаж, создание выборки с периодом 4 разместит в выходном диапазоне значения продаж из одного и того же квартала.

С целью анализа качества данных полезно вначале провести графическую визуализацию выборки. Точечное графическое представление, ставящее в соответствие порядковому номеру, времени или другой подходящей категории данные выборки называется диаграммой рассеяния. Для графического представления данных в пространстве более 3-х измерений (многомерные таблицы), применяются сечения. Простейшая диаграмма рассеяния – графическое отображение реализаций случайной величины на плоскости. По горизонтальной оси откладывается номер опыта, а по вертикальной – выборочные значения случайной величины. Диаграмма рассеяния позволяет визуально оценить область локализации (концентрации) и степень разброса данных.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: