Этапы ETL-процесса

Подсистема хранения информации

               
 
Подсистемы ввода (OLTP)
   
ХД
 
Подсистема анализа (OLAP, Data Mining)
 
 


извлечение преобр. загрузка
метадан. метадан. метадан.
извлечение структур преобр. структур загрузки структур
данные данные данные
извлечение данных преобр. данных загрузка данных


 
 


внешний

Два способа извлечения данных:

  1. Из структур хранения информации – файлов, электронных таблиц, БД (вспомогательными программными средствами). Достоинства:
    • отсутствие необходимости расширять OLTP-систему
    • данные могут извлекаться с учетом потребностей процесса переноса
  2. Выгрузка данных средствами OLTP-систем в промежуточные структуры. Достоинства:
    • Возможность использовать средства OLTP-систем, адаптированные к структурам данных
    • Средства выгрузки изменяются вместе с изменениями OLTP-систем и ОИД
    • Возможность выполнения первого шага преобразования данных за счет определенного формата промежуточной структуры хранения

Преобразование данных включает процедуры:

  1. Обобщение данных (aggregation) – это замена многочисленных детальных данных относительно небольшим числом агрегированных данных.
  2. Перевод значений (value translation). В ОИД данные часто хранятся в закодированном виде, чтобы сократить избыточность и память. Например, названия городов, товаров могут храниться в сокращенном виде. Перед загрузкой в ХД закодированные данные обычно заменяют более понятными описаниями.
  3. Создание полей (field derivation). При этом создается новая информация. Например, в ОИД есть одно поле для указания товара, второе – для цены экземпляра. Для исключения операции вычисления стоимости всех товаров можно создать специальное поле для хранения стоимости во время преобразования.
  4. Очистка данных (cleaning) – выявление и удаление ошибок и несоответствий в данных с целью улучшения их качеств. Например, в файлах БД могут быть ошибки при вводе, отдельная информация может быть утрачена, могут присутствовать «загрязненные» данные и т.д. Очистка применяется также для согласования атрибутов полей так, чтобы они соответствовали атрибутам БД назначения.

При загрузке выполняется запись преобразованных детальных и агрегированных данных. При этом часть старых детальных данных может переноситься в архив.

Наиболее важной задачей при переносе данных является их очистка (так как потом будет анализ данных).




double arrow
Сейчас читают про: