Очистка данных

Преобразование данных

Преобразование данных включает процедуры:

· Обобщение данных (aggregation) – это замена многочисленных детальных данных относительно небольшим числом агрегированных данных.

· Перевод значений (value translation). В ОИД данные часто хранятся в закодированном виде, чтобы сократить избыточность и память. Например, названия городов, товаров могут храниться в сокращенном виде. Перед загрузкой в ХД закодированные данные обычно заменяют более понятными описаниями.

· Создание полей (field derivation). При этом создается новая информация. Например, в ОИД есть одно поле для указания товара, второе – для цены экземпляра. Для исключения операции вычисления стоимости всех товаров можно создать специальное поле для хранения стоимости во время преобразования.

· Очистка данных (cleaning) – выявление и удаление ошибок и несоответствий в данных с целью улучшения их качеств. Например, в файлах БД могут быть ошибки при вводе, отдельная информация может быть утрачена, могут присутствовать «загрязненные» данные и т.д. Очистка применяется также для согласования атрибутов полей так, чтобы они соответствовали атрибутам БД назначения.

Основные проблемы очистки можно классифицировать по следующим уровням:

1. Уровень ячейки таблицы. К ошибкам в ячейке БД можно отнести:

a) орфографические ошибки (опечатки) при вводе

b) отсутствие данных (незаполненные ячейки, содержащие значение NULL)

c) фиктивные значения – введенные оператором, но не имеющие смысла (например, почтовый индекс 99999, возраст клиента 999 лет и другие)

d) логически неверные значения (например, в поле «город» находится значение «Россия»)

e) закодированные значения – сокращенная запись или кодировка реальных данных для уменьшения занимаемого места

f) составные значения – содержащие несколько логических данных в одной ячейке таблицы. Это возможно для строгого или текстового форматов. Кроме того, может отсутствовать формат записи в такие поля.

2. Уровень записи. На этом уровне возникает проблемы противоречивости значений в разных полях записи, описывающей один объект. Например, «возраст»=22, «дата рождения»=12.12.86.

3. Уровень таблицы БД. Это проблемы, связанные с несоответствием информации, хранящейся в таблице и относящейся к разным объектам. Это может быть:

a) нарушение уникальности – значения, соответствующие уникальным атрибутам разных объектов являются одинаковыми

b) отсутствие стандартов на формат записи – из-за этого может быть дублирование данных или их противоречивость.

4. Уровень одиночной БД. Проблемы нарушения целостности БД.

5. Уровень множества БД. Проблемы неоднородности структур БД и хранящейся в них информации:

6. различие структур: различие наименований полей, типов, размеров

7. в разных БД есть одинаковые наименования разных атрибутов

8. одинаковые данные представлены по-разному

9. разная классификация элементов

Не все проблемы могут быть устранены при очистке. Кроме того, данные, достоверность которых не влияет на процесс принятия решений, могут остаться неочищенными.

Этапы очистки:

1. Выявление проблем в данных. Анализ данных производиться 2 методами:

a) Профайлинг – грубый анализ отдельных атрибутов данных (тип, длина, спектр значений, дискретные значения и их частота, уникальность, наличие NULL-значений).

b) Data Mining – выполняет группировку, обобщения, поиск ассоциаций, последовательностей, то есть помогает найти специфические модели в больших наборах данных.

2. Определение правил очистки данных. Сначала устраняются проблемы отдельных источников данных. Потом выполняется интеграция данных и устранение проблем множественности источников (на этом этапе должна быть выработаны правила, часть представлена ПО очистки).

3. Тестирование правил. Правила должны оцениваться на копиях данных. Этапы определения правил, и их тестирование могут выполняться итерационно.

4. Непосредственная очистка данных. Преобразования выполняются в два приема в соответствии с определенными ранее правилами. Сначала – проблемы, связанные с отдельными источниками, а затем – с многоженствами БД.

5. Замена загрязненных данных очищенными. Данные ХД имеются в подсистемах анализа данных. От вида анализа зависит реализация структур.