Объём данных, которые могут храниться в оперативных базах данных, достаточно велик и увеличивается с большой скоростью. Поэтому всегда актуальной является задача удаления устаревшей информации для его сокращения.
Кроме того, традиционный анализ данных осуществляется на основе набора готовых отчетов, а его результат – принятие определенного бизнес-решения. Для принятия эффективных управленческих решений руководителю может потребоваться исследование десятков тысяч комбинаций данных, не укладывающихся в имеющийся набор готовых отчетов. Эти проблемы легко решаются при использовании хранилищ данных.
Хранилище данных (ХД) – совокупность данных, ориентированная на предметную область, интегрированная, статичная, не разрушаемая, предназначенная для поддержки принятия решений.
Предметная ориентированность означает, что хранилище предоставляет данные, связанные с одним организационным процессом. Например, компания предоставляет клиентам услуги городской телефонной связи, мобильной связи и Интернет. Каждым видом услуг занимаются разные отделы, имеющие свои БД и создающие свои отдельные отчеты. Создание общего хранилища данных о клиентах может обеспечить единый взгляд на приобретаемые услуги. Из него исключаются ненужные для анализа данные (индексы, номера телефонов и т.д.). Основываясь на демографических данных клиентов и тенденциях их покупательского поведения в прошлом, компания может предложить им новые услуги.
|
|
Интегрированность означает применение единых законов именования и способов вычисления значений данных, полученных из разных источников. Например, могут использоваться несколько разных форматов представления дат или один и тот же показатель может называться по-разному, («дата выполнения» и «дата исполнения»). При записи (погружении) в хранилище данных такие несоответствия устраняются автоматически. В процессе погружения данные:
1) очищаются – устраняется ненужная или служебная информация;
2) агрегируются – вычисляются суммы, средние значения и т.д.;
3) изменяются – происходит преобразование типов данных, изменение структур хранения;
4) объединяются из разных источников;
5) синхронизируются – приводятся к одному моменту времени.
Статичность (независимость от времени) означает, что хранилище данных содержит как исторические данные, так и данные, которые имели статус текущих при последнем погружении. Временные рамки изменяются в пределах от нескольких месяцев до нескольких лет.
Неразрушаемая совокупность данных означает, что в хранилище помещается большой объем данных, которые никогда больше не подвергаются изменениям. Т.о. пользователи, выполняющие один и тот же запрос к хранилищу данных, получат один и тот же результат.
|
|
Поскольку хранилища данных достаточно дороги, в настоящее время создаются их более дешевые варианты витрины данных или киоски данных. Киоск данных – это небольшое хранилище данных, обслуживающее одно из направлений бизнеса компании или одно ее структурное подразделение. Стоимость разработки киоска в десятки и сотни раз ниже стоимости корпоративного хранилища данных, а результат его внедрения окупается очень быстро.