Хранилища данных и базы знаний

Основные проблемы, связанные с анализом информации, как правило, обусловлены разрозненностью данных в первоисточниках, их качеством и уровнем готовности (отсутствием агрегатов, вычисляемых показателей) для решения аналитических задач. Поэтому на сегодняшний день наиболее востребованной технологией, используемой при реализации аналитической информационной системы, являются хранилища данных, с помощью которых решается задача сбора, очистки и преобразования первичных данных.

Основными идеями, лежащими в основе концепции хранилища данных, являются:

• интеграция разъединенных детализированных данных, которые описывают некоторые конкретные факты, свойства, события и т.д., в едином хранилище;

• разделение наборов данных и приложений на используемые для оперативной обработки и применяемые для решения задач анализа.

В начале восьмидесятых годов прошлого века в период бурного развития регистрирующих ИС возникло понимание ограниченности возможности применения БД для целей анализа данных и построения на их основе систем поддержки и принятия решений. Регистрирующие системы создавались для автоматизации рутинных операций по ведению бизнеса — выписка счетов, оформление договоров, проверка состояния склада и т.д. Пользователями таких систем был в основном линейный персонал. Основные требования, которые предъявлялись к регистрирующим системам, — обеспечение транзакционности вносимых изменений и максимизация скорости их выполнения. Именно эти требования определили выбор реляционных СУБД и соответствующей модели представления данных в качестве основных используемых технических решений при построении регистрирующих систем.

Для менеджеров и аналитиков требовались системы, которые бы позволяли:

• анализировать информацию во временном аспекте;

• формировать произвольные запросы к системе;

• обрабатывать большие объемы данных;

• интегрировать данные из различных регистрирующих систем.

Очевидно, что регистрирующие системы не удовлетворяли ни

одному из вышеуказанных требований. В регистрирующей системе информация актуальна только на момент обращения к базе данных, в следующий момент времени по тому же запросу можно получить совершенно другой результат. Интерфейс регистрирующих систем рассчитан на проведение жестко определенных операций и возможности получения результатов на нерегламентированный запрос сильно ограничены. Возможность обработки больших массивов данных также мала из-за настройки СУБД на выполнение коротких транзакций и неизбежного замедления работы остальных пользователей.

Ответом на возникшую потребность стало появление новой технологии организации баз данных — технологии хранилищ данных.

Хранилище данных (ХД) — это система, содержащая непротиворечивую интегрированную предметно-ориентированную совокупность исторических данных крупной корпорации или иной организации с целью поддержки принятия стратегических решений [31].

Информационные ресурсы ХД формируются путем извлечения моментальных снимков БД операционной ИС организации и различных внешних источников. ХД собирает, очищает, загружает, агрегирует, хранит данные и предоставляет к ним быстрый доступ.

При эффективном использовании ХД может быть одним из основных источников достоверной информации для руководителей и специалистов всех подразделений организации. Это обеспечит согласованность, своевременность и обоснованность принятия управленческих решений, облегчит выверку обязательной отчетности, выпуск управленческой отчетности.

О хранилище данных можно говорить как о совокупности источника данных (структура связанных таблиц — это и есть хранилище), где собирается информация для дальнейшей обработки, и процедур извлечения, преобразования и загрузки данных (ETL — extraction, transformation, loading).

Физически хранилище данных представляет собой реляционную базу данных. Однако в отличие от БД корпоративных информационных систем (КИС) хранилище имеет принципиально иную структуру. Например, хранилище содержит агрегированные данные, вычисляемые показатели, хранит исторические накопленные данные по конкретным объектам (период хранения информации — длительный). В отличие от ХД базы данных КИС содержат детализированные данные, период их хранения относительно короткий.

Классическая архитектура ХД состоит из следующих элементов: реляционная, многомерная, или гибридная БД, средства извлечения, очистки и загрузки данных, средства визуализации данных и генерации отчетов (OLAP-клиенты). Реляционная БД строится по архитектуре «звезда», в которой с одной таблицей фактов связаны несколько таблиц измерений (справочников), или «снежинка», отличающаяся наличием иерархических справочников. Это делается для оптимизации скорости выполнения объемных запросов (в последнее время появилось много статей, критикующих этот подход за его упрощенность и невозможность решения исключительно в рамках «звезды» всего многообразия задач ХД). В многомерной БД строятся «кубы» — специфические структуры, аналогичные по смыслу реляционным «снежинкам», но хранящие вычисленные агрегаты на всех пересечениях измерений.

Концептуально модель хранилища данных можно представить в виде схемы, показанной на рис. 3.20.

Данные из различных источников помещаются в ХД, а описания этих данных в репозитории метаданных. Конечный пользователь, используя различные инструменты (средства визуализации, построения отчетов, статистической обработки и т.д.) и содержимое репозитория, анализирует данные в хранилище. Результатом его деятельности является информация в виде готовых отчетов, найденных скрытых закономерностей, каких-либо прогнозов. Так,как средства работы конечного пользователя с хранилищем данных могут быть самыми разнообразными, то теоретически их выбор не должен влиять на его структуру и функции его поддержания в актуальном состоянии.

Рис. 3.20. Концептуальная модель хранилища данных

Особенности хранилища данных связаны с особенностями задач, на решение которых оно ориентировано: аналитическую оперативную обработку информации и, как следствие, сложные для оперативных баз данных SQL-запросы.

На основе ХД создаются подмножества данных — OLAP-кубы, многомерные иерархические структуры данных, содержащие множество признаков:

• дата/время (период времени, к которому относятся данные);

• сфера деятельности (бизнес-сфера, результат), к которой относятся данные;

• субъект управления (лицо, принимающее решение — ЛПР);

• вид ресурса и др.

Эти признаки позволяют агрегировать данные путем произвольного сочетания признаков и вычисления статистических оценок. В результате анализа информации создается новое знание, полезное для целей управления.

Данные в хранилище попадают из оперативных систем (OL ГР- систем), которые предназначены для автоматизации бизнес-процессов. Кроме того, хранилище может пополняться за счет внешних источников, например статистических отчетов.

На вопрос «Зачем строить хранилища данных — ведь они содержат заведомо избыточную информацию, которая и так присутствует
в БД или файлах оперативных систем?», можно ответить, что анализировать данные оперативных систем напрямую невозможно или очень сложно. Это объясняется различными причинами, в том числе разрозненностью данных, хранением их в форматах различных СУБД и в разных «уголках» корпоративной сети. Но даже если на предприятии все данные хранятся на центральном сервере БД, аналитик почти наверняка не разберется в их сложных, подчас запутанных структурах.

OLAP (On-line Analytical Processing) не представляет собой необходимый атрибут хранилища данных, но он все чаще и чаще применяется для анализа накопленных в этом хранилище сведений.

Компоненты, входящие в типичное хранилище, представлены на рис. 3.21.

Построение отчетов