Оперативная аналитическая обработка данных
В процессе анализа данных, поиска решений часто возникает необходимость в построении зависимостей между различными параметрами. Кроме того, число таких параметров может варьироваться в широких пределах. Как уже отмечалось ранее традиционные средства анализа, оперирующие данными, которые представлены в виде таблиц реляционной БД, не могут в полной мере удовлетворять таким требованиям. В 1993 г. Е. Кодд основоположник реляционной модели БД − рассмотрел ее недостатки, указав, в первую очередь, на невозможность «объединять, просматривать и анализировать данные с точки зрения множественности измерений, т. е. самым понятным для аналитиков способом».
В концепции технологии аналитической обработки данных (On-Line Analytical Processing или OLAP-технологии) используется понятие измерения.
При этом под измерением понимается последовательность значений одного из анализируемых параметров. Например, для параметра «время» это последовательность календарных дней, для параметра «регион» это может быть список городов.
|
|
Множественность измерений предполагает представление данных в виде многомерной модели. По измерениям в многомерной модели откладывают параметры, относящиеся к анализируемой предметной области.
По Кодду, многомерное концептуальное представление (multi-dimensional conceptual view) − это множественная перспектива, состоящая из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных. Одновременный анализ по нескольким измерениям определяется как многомерный анализ.
Каждое измерение может быть представлено в виде иерархической структуры. Например, измерение «Исполнитель» может иметь следующие иерархические уровни: «предприятие − подразделение − отдел − служащий». Более того, некоторые измерения могут иметь несколько видов иерархического представления. Например, измерение «Время» может включать две иерархии со следующими уровнями: «год − квартал − месяц − день» и «неделя − день».
На пересечениях осей измерений (Dimensions) располагаются данные, количественно характеризующие анализируемые факты, − меры (Measures). Это могу быть объемы продаж, выраженные в единицах продукции иди в денежном выражении, остатки на складе, издержки и т.п.
Таким образом, многомерную модель данных можно представить как гиперкуб (конечно, название не очень удачное, поскольку под кубом обычно понимают фигуру с равными ребрами, что в данном случае далеко не так). Ребрами такого гиперкуба являются измерения, а ячейками − меры.
|
|
Над таким гиперкубом могут выполняться следующие операции:
1. Срез (Slice) − формирование подмножества многомерного массива данных, соответствующего единственному значению одного или нескольких элементов измерений, не входящих в это подмножество. Например, при выборе элемента «Факт» измерения «Сценарий» срез данных представляет собой подкуб, в который входит все остальные измерения. Данные, что не вошли в сформированный срез, связаны с теми элементами измерения «Сценарий», которые не были указаны в качестве определяющих (например, «План», «Отклонение», «Прогноз» и т. п.). Если рассматривать термин «срез» с позиции конечного пользователя, то наиболее часто его роль играет двумерная проекция куба.
2. Вращение (Rotate) − изменение расположения измерений, представленных в отчете или на отображаемой странице. Например, операция вращения может заключаться в перестановке местами строк и столбцов таблицы или перемещении интересующих измерений в столбцы или строки создаваемого отчета, что позволяет придавать ему желаемый вид. Кроме того, вращением куба данных является перемещение внетабличных измерений на место измерений, представленных на отображаемой странице, и наоборот (при этом внетабличное измерение становится новым измерением строки или измерением столбца). В качестве примера первого случая может служить отчет, для которого элементы измерения «Время» располагаются поперек экрана (являются заголовками столбцов таблицы), а элементы измерения «Продукция» − вдоль экрана (заголовки строк таблицы). После применения операции вращения отчет будет иметь следующий вид: элементы измерения «Продукция» будут расположены по горизонтали, а элементы измерения «Время» − по вертикали. Примером второго случая может служить преобразование отчета с измерениями «Меры» и «Продукция», расположенными по вертикали, а измерением «Время», расположенным по горизонтали, в отчет, у которого измерение «Меры» располагается по вертикали, а измерения «Время» и «Продукция» − по горизонтали. При этом элементы измерения «Время» располагаются над элементами измерения «Продукция». Для третьего случая применения операции вращения можно привести пример преобразования отчета с расположенными по горизонтали измерением «Время» и по вертикали измерением «Продукция» в отчет, у которого по горизонтали представлено измерение «Время», а по вертикали − измерение «География».
3. Консолидация (Drill Up) и детализация (Drill Down) − операции, которые определяют переход вверх по направлению от детального (down) представления данных к агрегированному (up) и наоборот, соответственно. Направление детализации (обобщения) может быть задано как по иерархии отдельных измерений, так и согласно прочим отношениям, установленным в рамках измерений или между измерениями. Например, если при анализе данных об объемах продаж в Северной Америке выполнить операцию Drill Down для измерения «Регион», то на экране будут отображены такие его элементы, как «Канада», «Восточные Штаты Америки» и «Западные Штаты Америки». В результате дальнейшей детализации элемента «Канада» будут отображены элементы «Торонто», «Ванкувер», «Монреаль» и т. д.