Изучение модели дерева принятия решений

Алгоритм дерева принятия решений (Майкрософт) прогнозирует, какие столбцы влияют на решение о приобретении велосипеда на основании оставшихся столбцов в обучающем наборе.

 

На вкладке «Дерево принятия решений» можно изучать все древовидные модели, из которых состоит модель интеллектуального анализа данных.

Поскольку модель прямой почтовой рассылки для проекта этого учебного проекта содержит только один прогнозируемый атрибут, «Покупатель велосипеда», для просмотра доступно только одно дерево. При наличии нескольких деревьев нужное можно выбрать в поле «Дерево».

При просмотре модели «TM_Decision_Tree» в средстве просмотра дерева принятия решений обнаруживается, что возраст является единственным важным фактором в прогнозировании покупки велосипеда. Интересно, что при группировании клиентов по возрасту следующая ветвь дерева различна для каждого узла возраста. В результате исследования вкладки «Дерево принятия решений» можно заключить, что покупатели от 34 до 40 лет, имеющие один автомобиль или не имеющие автомобиля, в большой вероятностью купят велосипед и что неженатые, молодые клиенты, живущие в Тихоокеанском регионе и имеющие не более одного автомобиля, также с большой вероятностью купят велосипед.

 

Исследование модели на вкладке «Дерево принятия решений»

Перейдите на вкладку «Средство просмотра модели интеллектуального анализа данных (Mining Model Viewer)» в конструкторе интеллектуального анализа данных».

По умолчанию конструктор открывается на первой модели, добавленной в структуру, в данном случае — на модели «TM_Decision_Tree».

Для настройки размера отображения дерева воспользуйтесь кнопками со значком лупы.

По умолчанию в средстве просмотра деревьев (Майкрософт) отображаются только первые три уровня дерева. Если дерево содержит меньше трех уровней, показываются только существующие уровни. Увеличить число отображаемых уровней можно с помощью ползунка «Отображение уровня (Show Level)» или списка «Расширение по умолчанию (Default Expansion)».

Переместите ползунок «Отображение уровня (Show Level)» на значение 4.

Установите для параметра «Фон (Background)» значение 1.

Изменив параметр «Фон», можно быстро просмотреть число вхождений в каждый узел, имеющих целевое значение 1 для элемента [Покупатель велосипеда]. В этом конкретном сценарии следует помнить, что каждый вариант представляет покупателя. Значение 1 показывает, что покупатель ранее уже приобретал велосипед. Значение 0 показывает, что покупатель не приобретал велосипеда. Чем темнее заливка узла, тем больший процент вариантов с нужным целевым значением он содержит.

Поместите курсор над узлом с заголовком «Все (All)». В подсказке отобразятся следующие сведения.

Общее число вариантов

Число вариантов покупки товара, не являющегося велосипедом

Число вариантов покупки велосипеда

Число вариантов с отсутствующими значениями для элемента [Покупатель велосипеда]

Можно также поместить курсор над любым узлом в дереве и просмотреть условие, необходимое для достижения этого узла из узла, стоящего перед ним. Эти сведения можно также просмотреть в окне «Обозначения интеллектуального анализа данных (Mining legend)».

Щелкните узел для категории «Возраст (Age) >=34 и < 41». Отобразится гистограмма в виде тонкой горизонтальной полоски, пересекающей узел. Она показывает распределение клиентов в этом диапазоне возраста, которые раньше покупали (розовый цвет) и не покупали (синий цвет) велосипед. В средстве просмотра показано, что клиенты в возрасте от 34 до 40 лет с одним автомобилем или не имеющие автомобиля, вероятно, купят велосипед. Сделав еще один шаг, мы видим, что вероятность покупки велосипеда увеличивается, если возраст клиента — от 38 до 40 лет.

Поскольку при создании структуры и модели была включена детализация, из вариантов модели и структуры интеллектуального анализа данных можно получить подробные сведения, в том числе для столбцов, не включенных в модель интеллектуального анализа данных (например, столбцов emailAddress, FirstName).

Щелкните правой кнопкой мыши узел и выберите «Детализация (Drill Through)», затем «Только столбцы модели (Model Columns only)».

Сведения для каждого обучающего варианта отображаются в формате электронной таблицы. Эти сведения получены из представления vTargetMail, выбранного как таблица вариантов при построении структуры интеллектуального анализа данных.

Щелкните правой кнопкой мыши узел и выберите «Детализация (Drill Through)», затем «Столбцы модели и структуры (Model and structure columns)».

Отобразится та же электронная таблица со столбцами структуры, присоединенными в конец таблицы.

 

На вкладке «Сеть зависимостей (Dependency network)» отображаются связи между атрибутами, образующими прогнозную часть модели интеллектуального анализа данных. Средство просмотра «Сеть зависимостей» еще более явно подтверждает предположение, что возраст и регион являются важными факторами в прогнозировании покупки велосипеда.

Щелкните узел «Покупатель велосипеда (Bike buyer)», чтобы определить его зависимости.

Центральный узел сети зависимостей «Покупатель велосипеда (Bike buyer)», отражает прогнозируемый атрибут модели интеллектуального анализа данных. Розовая заливка показывает, что на покупку велосипеда влияют все атрибуты.

Переместите ползунок «Все связи (All links)», чтобы увидеть атрибут, оказывающий наибольшее влияние.

По мере перемещения ползунка вниз остаются только атрибуты с наибольшим влиянием на столбец [Покупатель велосипеда]. Перемещая ползунок, можно узнать, что возраст и регион являются факторами, оказывающими самое сильное влияние на принятие решения о покупке велосипеда.

 

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: