Решение задачи в Deductor Studio

Шаг 1. Выполните загрузку данных из файла «Vote.txt» (прилагается к практической работе). Ошибку, появляющуюся при загрузке данных из текстового файла, можно устранить путем замены логического типа данных на строковый.

Шаг 2. Запустите Мастер обработки и выберите в качестве обработки Дерево решений.

Шаг 3. В Мастере построения дерева решения настроите поле «Код» ин­формационным, «Класс» - выходным, остальные поля входными (рисунок 1.12).

Рисунок 1.12 - Настройка назначений столбцов

 

Шаг 4. Далее настройте способ разбиения исходного множества данных на обучающее и тестовое. Задайте случайный способ разбиения, когда данные для тестового и обучающего множества берутся из исходного набора случайным образом (рисунок 1.13).

Рисунок 1.13 - Разбиение исходного набора данных на подмножества

Шаг 5. Выполните настройку параметров процесса обучения: минимальное количество примеров, при котором будет создан новый узел (пусть узел создается, если в него попали два и более примеров) и возможность строить дерево с более достоверными правилами. Включите данные опции (рисунок 1.14).

Рисунок 1.14 - Настройка параметров обучения дерева

Шаг 6. Установите и запустите автоматический режим построения дерева решений. Просмотрите информацию о количестве распознанных примеров (рисунок 1.15).

Рисунок 1.15 - Построение дерева решений

 

После построения дерева решений убедитесь, что почти все примеры и на обучающей, и на тестовой выборке распознаны.

Шаг 7. Сделайте выбор способа визуализации полученных результатов. Ос­новной целью аналитика является отнесение депутата к той или иной партии. Механизм отнесения должен быть таким, чтобы депутат указал, как он будет го­лосовать за различные законопроекты, а дерево решений ответит на вопрос, кто он - демократ или республиканец. Такой механизм предлагает визуализатор Что-если.

Не менее важным является и просмотр самого дерева решений, на котором можно определить, какие факторы являются более важными (верхние узлы дерева), какие второстепенными, а какие вообще не оказывают влияния (входные факторы, вообще не присутствующие в дереве решений). Поэтому выберите также и визуализатор «Дерево решений».

Формализованные правила классификации, выраженные в форме

Если <Условие>, тогда <Класс>,

можно увидеть, выбрав визуализатор «Правила (дерево решений)».

 

Часто аналитику бывает полезно узнать, сколько примеров было распознано неверно, какие именно примеры были отнесены к какому классу ошибочно. На этот вопрос дает ответ визуализатор «Таблица сопряженности». Очень важно знать, каким образом каждый фактор влияет на классификацию. Такую информацию предоставляет визуализатор «Значимость атрибутов». Проанализируйте данные при помощи имеющихся визуализаторов. Для начала посмотрите на Таблицу сопряженности (рисунок 1.16).

Рисунок 1.16 - Таблица сопряженности

По диагонали таблицы расположены примеры, которые были правильно распознаны, в остальных ячейках - те, которые были отнесены к другому классу. В данном случае дерево правильно классифицировало практически все примеры.

Перейдите к основному визуализатору для данного алгоритма - Дерево решений (рисунок 1.17). Как видно, дерево решений получилось не очень громоздкое, большая часть факторов (законопроектов) была отсечена, т.е. влияние их на принадлежность к партии минимальна или его вообще нет (по-видимому, по этим вопросам у партий нет принципиального противостояния).

Рисунок 1.17 - Основной визуализатор

 

Самым значимым фактором оказалась позиция, занимаемая депутатами по пакету законов, касающихся врачей, т. е. если депутат голосует против законопроекта о врачах, то он демократ (об этом можно говорить с полной уверенностью, потому что в узел попало 83 примера). Достоверно судить о том, что депутат - республиканец, можно, если он голосовал за законопроект о врачах, а также за законопроект по Сальвадору, а также был против законопроекта об усыновлении. Данный визуализатор предоставляет возможность просмотра примеров, которые попали в тот или иной узел, а также информацию об узле.

Более удобно посмотреть значимость факторов или атрибутов в визуализаторе Значимость атрибутов (рисунок 1.18).

Рисунок 1.18 - Основной визуализатор Значимость атрибутов

 

С помощью данного визуализатора можно определить, насколько сильно выходное поле зависит от каждого из входных факторов. Чем больше значимость атрибута, тем больший вклад он вносит при классификации. В данном случае самый большой вклад вносит закон о врачах, как и было сказано выше.

На визуализаторе Правила представлен список всех правил, согласно которым можно отнести депутата к той или иной партии. Правила можно сортировать по поддержке, достоверности, фильтровать по выходному классу (к примеру, показать только те правила, согласно которым депутат является демократом с сортировкой по поддержке).

Данные представлены в виде таблицы. Полями этой таблицы являются:

- номер правила;

- условие, которое однозначно определяет принадлежность к партии;

- следствие - то, кем является депутат, голосовавший согласно этому условию;

- поддержка - количество и процент примеров из исходной выборки, которые отвечают этому условию;

- достоверность - процентное отношение количества верно распознанных примеров, отвечающих данному условию, к общему количеству примеров, отвечающих данному условию.

Исходя из данных этой таблицы, аналитик может сказать, что именно влияет на то, что депутат является демократом или республиканцем, какова цена этого влияния (поддержка) и какова достоверность правила. В данном случае совершенно очевидно, что из всего списка правил с достаточно большим доверием можно отне­стись к двум: правилу № 9 и правилу №7. Таким образом, получается, что демо­краты принципиально против законопроектов, касающихся врачей. Республиканцы же, наоборот, за принятие этих законопроектов и также за принятие законопроекта по Сальвадору, но категорически против законопроектов по усыновлению. Теперь аналитик может точно сказать, кто есть кто.

Но иногда аналитик считает правильным построить дерево решений исходя из своих соображений или внести некоторую корректировку, и тогда необходимо выбрать интерактивный режим построения, в результате чего получим следующее окно дерева решений (рисунок 1.19).

Рисунок 1.19 - Интерактивный режим построения дерева решений

 

Для внесения изменений в него используются следующие кнопки:

Допустим, аналитик думает, что основное правило, которое надо учитывать в построение дерева решений есть проект о ракетах. Тогда для данного построения выберем корневой каталог в дереве решений и нажмем кнопку и в появившемся окне выберем проект по ракетам. В результате получим новое дерево решений с новыми правилами и законами (рисунок 1.20).

Рисунок 1.20 - Новое дерево решений

 

Самостоятельная работа. Задача 3. В Deductor Studio с использованием технологии деревьев решений постройте модель классификации и выполните классификацию инцидентов информационной безопасности предприятия. Данные по инцидентам возьмите из файла «Инцидент.txt » (прилагается к практической работе).

 

 

Вопросы для самопроверки:

1. Каковы основные возможности Deductor Academic?

2. В чем сущность методики Data Mining?

3. Что такое дерево решений?

4. Что показывает таблица сопряженности?

 

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: