Системы поддержки принятия решений СППР. Хранилища данных

СППР – это системы, обладающие средствами ввода, хранения и анализа данных, относящихся к определенной предметной области, с целью поиска решения. Таким образом, можно выделить три основные задачи, решаемые в СППР: · Ввод данных; · Хранение данных; · Анализ данных.

Ввод данных в СППР осуществляется либо автоматически от датчиков, либо человеком-оператором. Если ввод осуществляется одновременно несколькими операторами, то система должна решать проблемы параллельного доступа и модификации одних и тех же данных. В подсистемах ввода данных, называемых OLTP (Onlinetransactionprocessing), реализуется операционная обработка данных. Для их реализации используются СУБД.

Задача хранения данных должна обеспечить надежное хранение больших объемов данных. На СППР также могут быть возложены задачи резервного хранения данных, архивирования и т.п. Для реализации подсистемы хранения используют СУБД и концепцию хранилищ данных.

Анализ данных – это основная задача СППР. Система предоставляет аналитику данные в соответствующем виде для изучения и анализа, именно поэтому такие системы обеспечивают выполнение функции поддержки принятия решения. Подсистема анализа может быть построена на основе: · подсистемы информационно-поискового анализа на базе реляционных СУБД и статических запросов с использование языка SQL; · подсистемы оперативно-аналитического анализа. Для реализации таких подсистем применяется технология оперативной аналитической обработки данных OLAP, использующая концепцию многомерного представления данных;· подсистемы интеллектуального анализа. Данная подсистема реализует методы и алгоритмы DataMining.

Рассмотрим основные требования, предъявляемые к системам OLTP и СППР. Типичный запрос в OLTP-системе, как правило, затрагивает отдельные записи в таблицах. В системах анализа, наоборот, требуется выполнять запросы сразу над большим количеством данных с широким применением группировок и обобщений. Структура базы данных, обслуживающей OLTP-систему, обычно довольно сложна. Она может содержать десятки таблиц, ссылающихся друг на друга. При проектировании систем анализа стараются максимально упростить схему БД и уменьшить количество таблиц, участвующих в запросе. Как правило, системы анализа предназначены для анализа временных зависимостей, в то время как OLTP-системы обычно имеют дело с текущими значениями каких-либо параметров. OLTP-системы, как правило, работают в режиме реального времени, поэтому к ним предъявляются жесткие требования по обработке данных. В системах анализа обычно выдвигают значительно менее жесткие требования ко времени выполнения запроса. В отличие от OLTP-систем данные в системах анализа меняются редко.

Хранилище данных

Противоречивость требований к OLTP-системам и системам, ориентированным на анализ информации, усложняет задачу интеграции их как подсистем единой СППР. В настоящее время наиболее популярным решением этой проблемы является подход, ориентированный на использование концепции хранилищ данных (ХД). Основная идея хранилищ данных заключается в разделении БД для OLTP-систем и БД для выполнения анализа. Такое разделение позволяет оптимизировать как структуры данных оперативного хранения для выполнения операций ввода, модификации, удаления и поиска, так и структуры данных, используемых для анализа. В СППР эти два типа данных называются соответственно оперативными источниками данных (ОИД) и хранилищем данных. Хранилища данных – это предметно-ориентированный, интегрированный, неизменный, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений. При реализации в СППР концепции ХД данные из разных ОИД копируются в единое хранилище. Собранные данные приводятся к единому формату, согласовываются и обобщаются. Аналитические запросы адресуются к ХД. Такая модель приводит к дублированию информации в ОИД и в ХД. Избыточность данных не превышает 1 %. Это объясняется следующими причинами. При загрузке информации из ОИД в ХД данные фильтруются и очищаются. Многие из них не попадают в ХД. Информация в ОИД носит оперативный характер, и данные, потеряв актуальность, удаляются. В ХД, напротив, хранится историческая информация. В ХД хранится обобщенная информация, которая в ОИД отсутствует. Избыточность информации можно свести к нулю, если использовать виртуальное ХД. В этом случае данные из ОИД не копируются в единое хранилище. Они извлекаются, преобразуются и интегрируются непосредственно при выполнении аналитических запросов. Основными достоинствами виртуального ХД являются: минимизация объема памяти, занимаемой на носителе информации, и работа с текущими, детализованными данными. Недостатки: · время обработки запросов к виртуальному ХД значительно выше; · выполнение сложных аналитических запросов над ОИД занимает большой объем ресурсов компьютеров, на которых они работают; · практическая невозможность получения данных за долгий период времени. Основными проблемами при создании ХД являются: · необходимость интеграции данных из неоднородных источников; · потребность в хранении и обработке очень больших объемов информации; · необходимость наличия многоуровневых справочников метаданных; · повышенные требования к безопасности данных. Снижения затрат на создание ХД можно добиться, создавая его упрощенный вариант – витрину данных, содержащий только тематически объединенные данные. ВД существенно меньше по объему, чем ХД, и для ее реализации не требуется больших затрат. Они могут быть реализованы как самостоятельно, так и вместе с ХД. Все данные в ХД делятся на три основные категории: · детальные данные; · агрегированные данные; · метаданные. Детальными являются данные, переносимые непосредственно из ОИД. На основании детальных данных могут быть получены агрегированные данные. Агрегирование происходит путем суммирования числовых фактических данных по определенным измерениям. Для быстрого доступа к наиболее часто запрашиваемым агрегированным данным они должны сохраняться в ХД, а не вычисляться при выполнении запросов. Метаданные необходимы для получения информации о данных, хранящихся в ХД. Данные, поступающие из ОИД в ХД, перемещаемые внутри ХД и поступающие из ХД к аналитикам, образуют информационные потоки. Самый мощный из информационных потоков – входной – связан с переносом данных из ОИД. Процесс переноса, включающий в себя этапы извлечения, преобразования и загрузки, называют ELT-процессом. Программные средства, обеспечивающие его выполнение, называются ELT-системами. Одной из важных задач, решаемых при переносе данных в ХД, является их очистка. Данные загружаются из различных источников, поэтому вероятность попадания “грязных” данных весьма высока. ХД используются для принятия решений, и “грязные” данные могут стать причиной принятия неверных решений. Основные проблемы очистки данных можно классифицировать по следующим уровням: · Уровень ячейки таблицы. На данном уровне задача очистки заключается в анализе и исправлении ошибок в данных, хранящихся в ячейках таблиц БД. · Уровень записи. На данном уровне возникает проблема противоречивости значений в разных полях записи, описывающей один и тот же объект предметной области. · Уровень таблицы БД. На данном уровне возникают проблемы, связанные с несоответствием информации, хранящейся в таблице и относящейся к разным объектам (нарушениям уникальности, дублирующиеся записи и др.). · Уровень одиночной БД. На данном уровне возникают проблемы, связанные с нарушением целостности данных. · Уровень множества БД. На данном уровне возникают проблемы структур БД и представленной в них информацией (например, в разных БД одинаковые данные представлены по-разному). Очистка данных включает следующие этапы: выявление проблем в данных, определение правил очистки, тестирование правил очистки,  непосредственно очистка данных. После исправления ошибок очищенные данные сохраняются в ХД и могут использоваться для анализа и принятия решения. За формирование аналитических запросов к данным и представление результатов их выполнения в СППР отвечают подсистемы анализа.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: