Обработчик Настройка набора данных предназначена для изменения имени, метки, типа, вида и назначения полей текущей выборки данных и кэширования выходного набора.
У каждого поля можно изменить метку столбца, которая будет использоваться для дальнейшей работы в программе. Если в текущей выборке данных поле имеет имя Name, ему можно задать метку Наименование, что гораздо удобнее при дальнейшем отображении этого поля в таблицах или диаграммах.
Изменение имени поля удобно в тех случаях, когда имена столбцов могут измениться в источнике данных или при перенастройке узлов верхних уровней. В этом случае в узле Настройка набора данных имя исходного столбца заменяется другим, на которое и настраиваются все дочерние узлы. После такой операции изменение имен полей на верхних уровнях не потребует перенастройки всех дочерних узлов в дереве сценариев.
Далее каждому полю можно изменить тип:
Логический – данные в поле могут принимать только два значения –
0 или 1 (ложь или истина).
|
|
Дата/время – поле содержит данные типа дата/время.
Вещественный – значения поля – числа с плавающей точкой.
Целый – данные в поле представляют собой целые числа. Строковый – данные в столбце представляют собой строки символов. Затем можно указать вид данных.
Непрерывный – значения в столбце могут принимать любое значение в рамках своего типа. Обычно непрерывными являются числовые данные.
Дискретный – данные в столбце могут принимать ограниченное число значений (строковые).
Далее можно изменить назначение полей. В зависимости от дальнейшего использования выборки данных предлагается изменить текущие назначения полей на следующие:
Непригодное – данные в поле не пригодны для данного способа обработки (программа автоматически указывает полю это назначение). Например, для преобразования даты поле должно иметь тип Дата/время. Если оно будет иметь, например, строковый тип, то программа автоматически укажет для него назначение Непригодное.
Неиспользуемое – запрещает использование поля в обработке данных и исключает его из выходного набора. В отличие от непригодного поля такие поля в принципе могут использоваться, если в этом есть необходимость.
Ключ – поле будет использоваться в качестве первичного ключа.
Входное – поле таблицы, построенное на основе столбца, будет являться входным полем обработчика (нейронной сети, дерева решений и т.д.).
Выходное – поле таблицы, построенное на основе столбца, будет являться выходным полем обработчика (например, целевым полем для обучения нейронной сети).
Информационное – поле содержит вспомогательную информацию, которую часто полезно отображать, но не следует использовать при обработке.
|
|
Измерение – поле будет использоваться в качестве измерения в многомерной модели данных.
Факт – значения поля будут использованы в качестве фактов в многомерной модели данных.
Атрибут – поле содержит описание свойств или параметров некоторого объекта.
Транзакция – поле, содержащее идентификатор событий, происходящих совместно (одновременно). Например, номер чека, по которому приобретены товары. Тогда покупка товара – это событие, а их совместное приобретение по одному чеку – транзакция.
Элемент – поле, содержащее элемент транзакции (событие).
Для установки первоначальных параметров полей необходимо выделить поле или список полей и нажать на кнопку Сброс параметров.
Настройка набора данных применяется, когда необходимо изменить имя, метку, размер, тип, вид и назначение полей текущей таблицы данных для более удобного дальнейшего использования. Кроме того, в данном обработчике реализован механизм кэширования данных, который позволяет загрузить данные в оперативную память и оптимизировать скорость выполнения сценариев.
1) Продемонстрируем использование настройки полей, используя данные, полученные после квантования возраста кредиторов на интервалы из предыдущего примера (файл L2_1.ded). Пусть необходимо изменить метку поля Дата кредитования (Год + Неделя) на более информативную при подготовке отчетности – Год и неделя кредитования. Пусть также для дальнейшего использования необходимо использовать поле Срок кредита как дискретное.
2) Для выполнения настройки в узлу Иванов.Квантование (Возраст) добавим через Мастер обработки ► Трансформация данных ► Настройка набора данных узел Настройка набора данных. В Мастере обработки выделим столбец Дата кредитования (Год + Неделя) и укажем ему новую метку (рис. 2.19)
Рисунок 2.19 – Изменение параметров набора данных
Переместим поля Сумма кредита, Срок кредита, Год и неделя кредитования, Давать кредит и Возраст наверх списка.
3) В качестве визуализации выбираем представление Куб.
Поля Срок кредита, Год и неделя кредитования и Давать кредит определяем как измерения, поле Сумма кредита – факт, а Возраст – информационное. Остальные поля отмечаем как неиспользуемые.
Измерение Давать кредит является столбцом кросс-таблицы, а измерения Год и неделя кредитования и Срок кредита (в указанной последовательности) – строки (рис. 2.20).
4) После настройки полей полученный отчет, представленный в виде кросс-таблицы, будет выглядеть следующим образом (рис. 2.21).
Рисунок 2.20 – Настройка назначений полей Куба
Рисунок 2.21 – Отчет Кросс-таблица
Результат сохранить в том же файле L2_1.ded.