Хранилища данных

Объём данных, которые могут храниться в оперативных базах данных, достаточно велик и увеличивается с большой скоростью. Поэтому всегда актуальной является задача удаления устаревшей информации для его сокращения.

Кроме того, традиционный анализ данных осуществляется на основе набора готовых отчетов, а его результат – принятие определенного бизнес-решения. Для принятия эффективных управленческих решений руководителю может потребоваться исследование десятков тысяч комбинаций данных, не укладывающихся в имеющийся набор готовых отчетов. Эти проблемы легко решаются при использовании хранилищ данных.

Хранилище данных (ХД) – совокупность данных, ориентированная на предметную область, интегрированная, статичная, не разрушаемая, предназначенная для поддержки принятия решений.

Предметная ориентированность означает, что хранилище предоставляет данные, связанные с одним организационным процессом. Например, компания предоставляет клиентам услуги городской телефонной связи, мобильной связи и Интернет. Каждым видом услуг занимаются разные отделы, имеющие свои БД и создающие свои отдельные отчеты. Создание общего хранилища данных о клиентах может обеспечить единый взгляд на приобретаемые услуги. Из него исключаются ненужные для анализа данные (индексы, номера телефонов и т.д.). Основываясь на демографических данных клиентов и тенденциях их покупательского поведения в прошлом, компания может предложить им новые услуги.

Интегрированность означает применение единых законов именования и способов вычисления значений данных, полученных из разных источников. Например, могут использоваться несколько разных форматов представления дат или один и тот же показатель может называться по-разному, («дата выполнения» и «дата исполнения»). При записи (погружении) в хранилище данных такие несоответствия устраняются автоматически. В процессе погружения данные:

1) очищаются – устраняется ненужная или служебная информация;

2) агрегируются – вычисляются суммы, средние значения и т.д.;

3) изменяются – происходит преобразование типов данных, изменение структур хранения;

4) объединяются из разных источников;

5) синхронизируются – приводятся к одному моменту времени.

Статичность (независимость от времени) означает, что хранилище данных содержит как исторические данные, так и данные, которые имели статус текущих при последнем погружении. Временные рамки изменяются в пределах от нескольких месяцев до нескольких лет.

Неразрушаемая совокупность данных означает, что в хранилище помещается большой объем данных, которые никогда больше не подвергаются изменениям. Т.о. пользователи, выполняющие один и тот же запрос к хранилищу данных, получат один и тот же результат.

Поскольку хранилища данных достаточно дороги, в настоящее время создаются их более дешевые варианты витрины данных или киоски данных. Киоск данных – это небольшое хранилище данных, обслуживающее одно из направлений бизнеса компании или одно ее структурное подразделение. Стоимость разработки киоска в десятки и сотни раз ниже стоимости корпоративного хранилища данных, а результат его внедрения окупается очень быстро.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: