Хранилища данных и базы знаний

Основные проблемы, связанные с анализом информации, как правило, обусловлены разрозненностью данных в первоисточниках, их качеством и уровнем готовности (отсутствием агрегатов, вычис­ляемых показателей) для решения аналитических задач. Поэтому на сегодняшний день наиболее востребованной технологией, исполь­зуемой при реализации аналитической информационной системы, являются хранилища данных, с помощью которых решается задача сбора, очистки и преобразования первичных данных.

Основными идеями, лежащими в основе концепции хранилища данных, являются:

• интеграция разъединенных детализированных данных, кото­рые описывают некоторые конкретные факты, свойства, со­бытия и т.д., в едином хранилище;

• разделение наборов данных и приложений на используемые для оперативной обработки и применяемые для решения за­дач анализа.

В начале восьмидесятых годов прошлого века в период бурного развития регистрирующих ИС возникло понимание ограниченности возможности применения БД для целей анализа данных и построе­ния на их основе систем поддержки и принятия решений. Регист­рирующие системы создавались для автоматизации рутинных опе­раций по ведению бизнеса — выписка счетов, оформление догово­ров, проверка состояния склада и т.д. Пользователями таких систем был в основном линейный персонал. Основные требования, кото­рые предъявлялись к регистрирующим системам, — обеспечение транзакционности вносимых изменений и максимизация скорости их выполнения. Именно эти требования определили выбор реляци­онных СУБД и соответствующей модели представления данных в качестве основных используемых технических решений при построе­нии регистрирующих систем.

Для менеджеров и аналитиков требовались системы, которые бы позволяли:

• анализировать информацию во временном аспекте;

• формировать произвольные запросы к системе;

• обрабатывать большие объемы данных;

• интегрировать данные из различных регистрирующих систем.

Очевидно, что регистрирующие системы не удовлетворяли ни

одному из вышеуказанных требований. В регистрирующей системе информация актуальна только на момент обращения к базе данных, в следующий момент времени по тому же запросу можно получить совершенно другой результат. Интерфейс регистрирующих систем рассчитан на проведение жестко определенных операций и возмож­ности получения результатов на нерегламентированный запрос силь­но ограничены. Возможность обработки больших массивов данных также мала из-за настройки СУБД на выполнение коротких тран­закций и неизбежного замедления работы остальных пользователей.

Ответом на возникшую потребность стало появление новой тех­нологии организации баз данных — технологии хранилищ данных.

Хранилище данных (ХД) — это система, содержащая непротиво­речивую интегрированную предметно-ориентированную совокуп­ность исторических данных крупной корпорации или иной органи­зации с целью поддержки принятия стратегических решений [31].

Информационные ресурсы ХД формируются путем извлечения моментальных снимков БД операционной ИС организации и раз­личных внешних источников. ХД собирает, очищает, загружает, агрегирует, хранит данные и предоставляет к ним быстрый доступ.

При эффективном использовании ХД может быть одним из ос­новных источников достоверной информации для руководителей и специалистов всех подразделений организации. Это обеспечит со­гласованность, своевременность и обоснованность принятия управ­ленческих решений, облегчит выверку обязательной отчетности, выпуск управленческой отчетности.

О хранилище данных можно говорить как о совокупности ис­точника данных (структура связанных таблиц — это и есть храни­лище), где собирается информация для дальнейшей обработки, и процедур извлечения, преобразования и загрузки данных (ETL — extraction, transformation, loading).

Физически хранилище данных представляет собой реляционную базу данных. Однако в отличие от БД корпоративных информацион­ных систем (КИС) хранилище имеет принципиально иную структуру. Например, хранилище содержит агрегированные данные, вычис­ляемые показатели, хранит исторические накопленные данные по конкретным объектам (период хранения информации — длитель­ный). В отличие от ХД базы данных КИС содержат детализирован­ные данные, период их хранения относительно короткий.

Классическая архитектура ХД состоит из следующих элементов: реляционная, многомерная, или гибридная БД, средства извлечения, очистки и загрузки данных, средства визуализации данных и гене­рации отчетов (OLAP-клиенты). Реляционная БД строится по архи­тектуре «звезда», в которой с одной таблицей фактов связаны не­сколько таблиц измерений (справочников), или «снежинка», отли­чающаяся наличием иерархических справочников. Это делается для оптимизации скорости выполнения объемных запросов (в послед­нее время появилось много статей, критикующих этот подход за его упрощенность и невозможность решения исключительно в рамках «звезды» всего многообразия задач ХД). В многомерной БД строятся «кубы» — специфические структуры, аналогичные по смыслу реля­ционным «снежинкам», но хранящие вычисленные агрегаты на всех пересечениях измерений.

Концептуально модель хранилища данных можно представить в виде схемы, показанной на рис. 3.20.

Данные из различных источников помещаются в ХД, а описа­ния этих данных в репозитории метаданных. Конечный пользова­тель, используя различные инструменты (средства визуализации, построения отчетов, статистической обработки и т.д.) и содержимое репозитория, анализирует данные в хранилище. Результатом его деятельности является информация в виде готовых отчетов, най­денных скрытых закономерностей, каких-либо прогнозов. Так,как средства работы конечного пользователя с хранилищем данных мо­гут быть самыми разнообразными, то теоретически их выбор не должен влиять на его структуру и функции его поддержания в акту­альном состоянии.

Рис. 3.20. Концептуальная модель хранилища данных

Особенности хранилища данных связаны с особенностями задач, на решение которых оно ориентировано: аналитическую оператив­ную обработку информации и, как следствие, сложные для опера­тивных баз данных SQL-запросы.

На основе ХД создаются подмножества данных — OLAP-кубы, многомерные иерархические структуры данных, содержащие мно­жество признаков:

• дата/время (период времени, к которому относятся данные);

• сфера деятельности (бизнес-сфера, результат), к которой от­носятся данные;

• субъект управления (лицо, принимающее решение — ЛПР);

• вид ресурса и др.

Эти признаки позволяют агрегировать данные путем произволь­ного сочетания признаков и вычисления статистических оценок. В результате анализа информации создается новое знание, полезное для целей управления.

Данные в хранилище попадают из оперативных систем (OL ГР- систем), которые предназначены для автоматизации бизнес-процессов. Кроме того, хранилище может пополняться за счет внешних источ­ников, например статистических отчетов.

На вопрос «Зачем строить хранилища данных — ведь они содер­жат заведомо избыточную информацию, которая и так присутствует
в БД или файлах оперативных систем?», можно ответить, что ана­лизировать данные оперативных систем напрямую невозможно или очень сложно. Это объясняется различными причинами, в том чис­ле разрозненностью данных, хранением их в форматах различных СУБД и в разных «уголках» корпоративной сети. Но даже если на предприятии все данные хранятся на центральном сервере БД, ана­литик почти наверняка не разберется в их сложных, подчас запу­танных структурах.

OLAP (On-line Analytical Processing) не представляет собой не­обходимый атрибут хранилища данных, но он все чаще и чаще при­меняется для анализа накопленных в этом хранилище сведений.

Компоненты, входящие в типичное хранилище, представлены на рис. 3.21.


Построение отчетов
Перенос и транс­формация данных
Реляционное хранилище

 


Оперативные базы данных


 



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: