Как правило, типичная организация имеет множество различных систем оперативной обработки с перекрывающимися, а иногда и противоречивыми определениями данных, например с разными типами, выбранными для представления одних и тех же данных. Основной задачей организации является преобразование накопленных архивов данных в источник новых знаний, причем таким образом, чтобы пользователю было предоставлено единое интегрированное и консолидированное представление о данных организации. Концепция хранилища данных была задумана как технология, способная удовлетворить требования систем поддержки принятия решений и базирующаяся информации, поступающей из нескольких различных источников оперативных данных.
Характеристики данных, указанные в определении хранилища, понимаются следующим образом:
Предметная ориентированность. Хранилище данных организовано вокруг основных предметов (или субъектов) организации (например, клиенты, товары и продажи), а не вокруг прикладных областей деятельности (выписка счета клиенту, контроль товарных запасов и продажа товаров). Это свойство отражает необходимость хранения данных, предназначенных для принятия решений, а не обычных оперативно-прикладных данных.
|
|
Интегрированность. Смысл этой характеристики состоит в том, что оперативно-прикладные данные обычно поступают из разных источников, часто имеют несогласованное представление одних и тех же данных, например используют разный формат. Для предоставления пользователям обобщенного представления данных необходимо создать интегрированный источник, обеспечивающий согласованность хранимой информации.
Привязка ко времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому моменту или промежутку времени..Привязанность хранилища данных ко времени следует из большой протяженности того периода, за который была накоплена сохраняемая в нем информация, из явной или неявной связи временных отметок со всеми сохраняемыми данными, а также из того факта, что хранимая информация фактически представляет собой набор моментальных снимков состояния данных.
Неизменяемость. Это означает, что данные не обновляются в оперативном режиме, а лишь регулярно пополняются за счет информации из оперативных систем обработки. При этом новые данные никогда не заменяют прежние, а лишь дополняютих. Таким образом, база данных хранилища постоянно пополняется новыми данными, последовательно интегрируемыми с уже накопленной информацией.
Конечной целью создания хранилища данных является интеграция корпоративных данных в едином репозитории, обращаясь к которому пользователи смогут составлять запросы, генерировать отчеты и выполнять анализ данных. Хранилище данных является рабочей средой для систем поддержки принятия решений, которая извлекает данные, хранимые в различных оперативных источниках, организует их и передает лицам, ответственным за принятие решений в данной организации. Подводя итог, можно сказать, что технология хранилищ данных — это технология управления данными и их анализа.
|
|
При успешной реализации хранилища данных в организации могут быть достигнуты следующие преимущества:
· Потенциально высокая отдача от инвестиций
· Повышение конкурентоспособности.
· Повышение эффективности труда лиц, ответственных за принятие решений.
Проблемы, возникающие при разработке и сопровождении хранилищ данных:
Недооценка ресурсов, необходимых для загрузки данных. Многие разработчики склонны недооценивать время, необходимое для извлечения, очистки и загрузки данных в хранилище. На выполнение этого процесса может потребоваться по данным источников до 80% общего времени разработки, хотя эту долю можно существенно сократить при использовании более совершенных инструментов очистки и сопровождения данных.
Скрытые проблемы источников данных. Скрытые проблемы, связанные с источниками данных, поставляющими информацию в хранилище, могут быть обнаружены только спустя несколько лет после начала их эксплуатации. При этом разработчику придется принять решение об устранении возникших проблем в хранилище данных и/или в источниках данных.
Например, при вводе данных о новом объекте недвижимости некоторые поля могут остаться незаполненными (NULL) в результате того, что сотрудник в свое время ввел в базу данных неполные сведения об этом объекте, невзирая на то, что они имелись в наличии.
Отсутствие требуемых данных в имеющихся архивах. В хранилищах данных часто возникает потребность получить некоторые сведения, которые не учитывались в оперативных системах, служащих источниками данных. В таком случае организация должна решить, стоит ей модифицировать существующие OLTP-системы или же лучше создать новую систему по сбору недостающих данных.
Гомогенизация данных. Создание крупномасштабного хранилища данных может быть связано с решением серьезной задачи гомогенизации данных, что в итоге способно уменьшить ценность собранной информации.
Например, при создании консолидированного и интегрированного представления данных организации разработчик хранилища данных может поддаться искушению подчеркнуть сходство, а не различие между данными, которые используются в таких разных прикладных областях, как продажа и аренда объектов недвижимости.
Высокие требования к ресурсам. Для хранилища данных может потребоваться огромный объем дисковой памяти. Для многих реляционных систем поддержки принятия решений используются специальные структуры данных (будут рассмотрены ниже), которые приводят к созданию очень больших таблиц с фактическими данными (или таблиц фактов). При наличии множества размерностей фактических данных для хранения таблиц фактов вместе с итоговыми данными и индексами может потребоваться гораздо больше места, чем для хранения исходных необработанных данных.
Владение данными. Создание хранилища данных может потребовать изменить статус конечных пользователей в отношении прав владения данными. Наиболее критичные данные, которые ранее были доступны для просмотра и использования только отдельным подразделениями организации, занятым в определенных бизнес-сферах, теперь потребуется сделать доступными и другим сотрудникам организации.
Сложное сопровождение. Хранилища данных обычно характеризуются сложностью сопровождения, поскольку любая реорганизация бизнес-процессов или источников данных может повлиять на происходящие в них процессы. Для того чтобы хранилище данных всегда оставалось Ценным ресурсом, необходимо, чтобы оно постоянно полностью соответствовало организации, работу которой оно поддерживает.
|
|
Долговременный характер проектов. Хранилище данных представляет собой единый информационный ресурс организации. Однако для его создания может потребоваться несколько лет (бывает до 2-3), а потому многие организации строят также свои собственные магазины данных (будут рассмотрены ниже). Магазины данных (data marts) предназначены для поддержки работы только какого-то одного подразделения организации или одной ее прикладной области, а потому создать их можно гораздо быстрее.
Требования к СУБД для хранилища данных. Специализированные требования к реляционной СУБД, предназначенной для хранилища данных, следующие:
· Высокая производительность загрузки данных.
· Возможность обработки данных во время загрузки.
· Наличие средств управления качеством данных.
· Высокая производительность запросов.
· Широкая масштабируемость по размеру (до терабайт).
· Масштабируемость по количеству пользователей.
· Возможность организации сети хранилищ данных.
· Наличие средств администрирования хранилища.
· Поддержка интегрированного многомерного анализа.
· Расширенный набор функциональных средств запросов