Деревья решений. Деревья решений – это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел

Деревья решений – это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде «если... то...» (рис. 6.24).

Рисунок 6.24 – Пример дерева решений

1) Помимо моделей логистической регрессии, Deductor позволяет использовать для решения задачи кредитного скоринга деревья решений. Для этого нужно добавить в ветвь сценария одноименный обработчик (рис. 6.25).

Рисунок 6.25 – Добавление в ветвь сценария

2) Первые два окна Мастера обработки аналогичны описанным ранее для обработчика Логистическая регрессия (рис. 6.26).


Рисунок 6.26 – Настройка назначений столбцов и разбиение исходного набора

3) На следующем шаге откроется окно выбора параметров алгоритма С4.5. Здесь нет необходимости менять настройки, принятые по умолчанию,


за исключением минимального количества примеров в узле, при котором будет создаваться новый. Примем этот параметр равным 1 % от объема всей выборки (999); меньшее значение может привести к появлению недостоверных правил, большее – к почти полному отсутствию таковых («бедное» дерево решений) (рис. 6.27).

Рисунок 6.27 – Настройка параметров алгоритма

4) На следующем шаге, после того, как дерево решений будет построено, выберем нужные визуализаторы Дерево решений, Правила, Значимость атрибутов, Что-если, Таблица сопряженности и Таблица (рис. 6.28).

а б
Рисунок 6.28 – Результат визуализации Таблица сопряженности

5) Точность классификации на обучающей выборке составила 89 %, на тестовой – 83 %.

Построенная ранее модель логистической регрессии с порогом отсечения 0,45 обеспечивала примерно такую же точность. Это означает, что между входами и выходами наблюдаются преимущественно линейные зависимости, и модель дерева решений, способная выявлять нелинейные связи, в данном случае не имеет никаких преимуществ.

6) Визуализатор Значимость атрибутов представляет собой таблицу, состоящую из трех столбцов. В них указываются соответственно номер поля, название переменной и ее значимость в процентах. Чем больший вклад вносит входной атрибут при классификации выходного поля, тем выше уровень значимости; фактически он характеризует степень нелинейной зависимости между фактором, включенным в модель, и независимой переменной (рис. 6.29).

Рисунок 6.29 – Визуализатор Значимость атрибутов

7) В результате работы алгоритма С4.5 было выявлено 16 правил.

Правила можно просмотреть с помощью визуализатора Правила

(рис. 6.30).

Рисунок 6.30 – Визуализатор Правила


8) Визуализатор Дерево решений позволяет увидеть полученный набор правил в схематическом виде, а также выводит показатели достоверности и поддержки для каждого узла (рис. 6.31). Эти же правила в виде импликаций

«если – то» можно просмотреть с помощью визуализатора Правила.

Рисунок 6.31 – Визуализатор Дерево решений

Сохраните результаты в файл L6_1.ded.



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: