Майстер опрацювання даних

Майстер опрацювання даних допоможе в інтерактивному покроковому режимі налаштувати всі необхідні етапи обробки даних. У вікні першого кроку Майстри наведені всі доступні в системі методи опрацювання даних, згруповані за типом. Для виклику Майстра опрацювання даних можна скористатися кнопкою «Майстер обробки» на панелі інструментів «Сценарії», попередньо виділивши потрібну гілку у сценарії або вибравши відповідну команду з контекстного меню (<F7>).

З доступних алгоритмів опрацювання даних потрібно вибрати один, скориставшись мишкою:

- Очищення даних:

o Парціальна обробка – алгоритми відновлення, згладжування та редагування аномальних даних.

o Факторний аналіз – для зниження розмірності вхідних факторів. Зниження розмірності необхідно у випадках, коли вхідні фактори є скорельованими один з одним, тобто взаємозалежні. У факторному аналізі мова йде про виділення з множини вимірюваних характеристик об'єкта нових факторів, що більш адекватно відображають властивості об'єкта.

o Кореляційний аналіз – усунення факторів, що не сильно впливають на результат (вихідні поля): такі фактори можуть бути виключені з розгляду практично без втрати корисної інформації. Критерієм прийняття рішення про виключення фактора служить порог чутливості: якщо кореляція (ступінь взаємозалежності) між вхідним та вихідним факторами є нижчою за поріг чутливості, то відповідний вхідний фактор відкидається як незначний.

o Дублікати та протиріччя – виявлення дублікатів та суперечливих записів у вхідному наборі даних.

o Фільтрація – фільтрація записів вибірки за заданими умовами.

- Трансформація даних:

o Налаштування набору даних – налаштування параметрів полів: можна змінити ім'я, мітку, тип, вид і призначення полів, а також налаштувати кешування проміжних даних.

o Ковзаюче вікно – дозволяє здійснювати перетворення даних методом ковзаючого вікна.

o Дата і час – опрацювання даних у форматі «дата» і «час» (наприклад, перетворення вхідних даних у днях в дані по тижнях).

o Квантування значень вибірки – процес, в результаті якого відбувається розподілення значень неперервних даних між скінченною кількістю інтервалів заданої довжини.

o Сортування – сортування записів у вхідній вибірці даних.

o Злиття – об'єднання даних із двох таблиць.

o Заміна – заміна значень згідно таблиці підстановки.

o Групування даних.

o Разгрупування даних – відновлення вибірки, до якої була застосована операція групування.

- Data Mining:

o Прогнозування часового ряду. Наприклад, методом ковзаючого вікна було одержано часовий ряд: , а потрібно спрогнозувати наступне значення на основі всіх попередніх значень.

o Автокореляція – автокореляційний аналіз даних, метою якого є з'ясування ступеня статистичної залежності між різними значеннями випадкової послідовності. У процесі автокореляційного аналізу розраховуються коефіцієнти кореляції (міра взаємної залежності) для двох значень вибірки, що перебувають один від одного на певній відстані (кількість проміжних значень між ними), яку називають також лагом. Сукупність коефіцієнтів кореляції по всіх лагах називається автокореляційною функцією ряду. За поведінкою цієї функції можна судити про характер аналізованої послідовності: ступеня її гладкості, наявності періодичності, тощо.

o Лінійна регресія – будується модель даних у вигляді набору коефіцієнтів лінійного перетворення.

o Логістична регресія – будується бінарна логістична регресійна модель.

o Нейромережа – опрацювання даних за допомогою багатошарової нейронної мережі.

o Дерево рішень – опрацювання даних за допомогою дерев рішень.

o Самоорганізовані карти – виконується кластеризація даних.

o Асоціативні правила – виявлення залежностей між взаємозв'язаними подіями.

o Користувацька модель – задання моделі вручну за формулами.

- Інше:

o Скрипт – застосування моделі до нових даних. Скрипти призначені для автоматизації процесу додавання в сценарій однотипних гілок обробки. По суті скрипт є динамічною копією вибраної ділянки сценарію. При зміні оригінальної гілки змінюється і скрипт, який посилається на неї. Наприклад, після імпорту даних з двох різних баз даних потрібно провести їх попередню обробку (очистити дані, згладити, поміняти назви стовпців, додати кілька однакових значень, тощо) та побудувати однакові моделі прогнозу, а потім експортувати отримані дані назад. Для першої гілки (першої БД) ці дії проводяться як звичайно: послідовними кроками будується ланцюжок обробників. Для другого джерела (другої БД) достатньо буде створити вузол імпорту, до якого потрібно приєднати скрипт, що базується на побудованій першій гілці. У цьому скрипті будуть виконані точно такі ж дії, як в оригінальній гілці. На виході скрипта ставиться вузол експорту, і друга гілка є готовою до використання. Аналогом скриптів є функції та процедури в мовах програмування: гілка обробки будується один раз, а потім за допомогою скриптів виконуються закладені в ній універсальні обробники.

o Калькулятор – дозволяє сформувати нове поле вибірки як результат обчислень над даними з інших полів.

o Умова – дозволяє організувати умовне виконання сценарію обробки даних.

o Команда OC – забезпечує формування й запуск різних команд операційної системи.

Залежно від обраного методу Майстер обробки буде містити різне число кроків і набір параметрів, що надбудовуються на кожному кроці. На кожному кроці Майстра обробки доступні кнопки «Далі», «Назад» та «Скасувати».