Решение задачи в Deductor Studio

Практическая работа № 13.

Интеллектуальные системы и технологии: применение деревьев решений для решения задачи классификации объектов

Цель:сформировать знания о сущности методики Data Mining, изучить процесс построения дерева решений для различного класса экономических задач на базе на основе аналитической платформы Deductor Academic.

Время: 2 часа.                                                 

План :                                                               

1. Правила оформления и представления отчета по практической работе.

2. Построение дерева решений для оценки кредитоспособности заемщика.

3. Построение дерева решений для классификации депутатского корпуса.

 

 

Ход работы

 

Правила оформления и представления отчета по практической работе

Отчет по практической работе предоставляется в письменной форме в виде текстового документа с именем Ваша_Фамилия_Номер_группы_Пр.р.13.docx. Он должен состоять из следующих частей:

- ФИО студента, Номер группы, Дата проведения занятия;

- номер и название практической работы;

- для каждой задачи: вставить постановку задачи и  скриншоты результатов выполнения.

 

Построение дерева решений для оценки кредитоспособности заемщика

Для выполнения практической работы необходимо скачать по следующей ссылке программу Deductor Academic https://basegroup.ru/deductor/download и установить, если она у вас не установлена.

Постановка задачи 1. С использованием метода деревьев решений, требуется построить класси­фикационную модель, позволяющую определять, можно ли выдавать заемщику кредит или нет (относить заемщика к одному из заранее известных классов - классу платежеспособных или к классу неплатежеспособных).

Для обучения модели имеется выборка хронологических данных, состоящая из 1000 записей. Каждая запись выборки содержит характеристики заемщика (№ Паспорта, ФИО, Адрес, Размер ссуды, Срок ссуды, Цель ссуды, Среднемесячный доход, Среднемесячный расход, Основное направление расходов, Наличие недвижимости, Наличие автотранспорта, Наличие банковского счета, Наличие страховки, Название организации, Отраслевая принадлежность предприятия, Срок работы на данном предприятии, Направление деятельности заемщика, Срок работы на данном направлении, Пол, Семейное положение, Количество лет, Количество иждивенцев, Срок проживания в данной местности, Обеспе­ченность займа) и параметр, показывающий, были ли у клиента просрочки или невозвраты денег (Давать кредит).

По своей сути, эта выборка является проверенными временем данными, на основании которых можно построить и обучить модель дерева решений, которая сможет в дальнейшем выполнить классификацию вновь появляющихся заемщи­ков.

Решение задачи в Deductor Studio

Шаг 1. Загрузите данные из файла CreditSample.txt (прилагается к практической работе), входящего в состав при­меров Deductor Studio.

Шаг 2. Запустите Мастер обработки (рисунок 1.1), выберите Дерево ре­шений и нажмите Далее.

Рисунок 1.1 - Мастер обработки

 

Поля «ФИО», «Адрес» и «Название организации» определены алгоритмом уже до начала построения дерева решений как непригодные по причине практической уникальности каждого из значений. Поле «№ Паспорта» нам также не пригодится, поэтому назначьте его не используемым.

Рисунок 1.2 - Настройка назначений столбцов

 

 

Целевым полем является поле «Давать кредит», в котором отображаются значения «Да» (True) и «Нет» (False). Эти значения можно интерпретировать следующим образом: «Нет» - плательщик либо сильно просрочил с платежами, либо не вернул часть денег, «Да» - противоположность «Нет» (рисунок 1.2).

Дальнейшие настройки процесса построения и отображения дерева решений выполните, как показано на рисунках 1.3-1.7.

Рисунок 1.3 - Разбиение исходного набора данных на подмножества

 

Рисунок 1.4 - Выбор способа построения дерева решений

 

Рисунок 1.5 - Настройка параметров обучения дерева решений

Рисунок 1.6 - Построение дерева решений

 

Рисунок 1.7 - Определение способов отображения

 

После окончания процесса построения дерева решений получаем модель оценки кредитоспособности физических лиц (рисунок 1.8). Модель описывает ситуацию, относящуюся к определенному банку, и имеет иерархическую структуру правил - дерево решений.

Рисунок 1.8 - Модель оценки кредитоспособности физических лиц

Шаг 3. Нажав на вкладке Дерево решений пиктограмму с изображением очков , получите записанные на естественном языке правила, определяющие принадлежность заемщика к той или иной группе (рисунок 1.9).

 

Рисунок 1.9 - Получение правил

 

Примеры правил, построенных на основе результатов работы модели:

Шаг 4. Перейдите на вкладку Правила и просмотрите расчетные значения поддержки и достоверности полученных правил (рисунок 1.10).

Рисунок 1.10 - Расчетные значения поддержки и достоверности

Шаг 5. Используйте данную модель для определения принадлежности по­тенциального заемщика к одному из двух классов (платежеспособен, неплатежеспособен). Для этого воспользуйтесь вкладкой Что-если, где, изменяя значения параметров, можно получить ответ на вопрос: «Давать ли кредит?» (рисунок 1.11).

Рисунок 1.11 - Вкладка Что-если

 

Таким образом, такой подход позволяет строить модели классификации (дерево решений) с минимальным вмешательством человека (модели самоадаптируемые). При этом достоверность результата достаточно высока за счет того, что алгоритм выбирает наиболее значимые факторы для определения конечного ответа. Кроме того, полученный результат является статистически обоснованным.

Приведенный выше пример – это, достаточно грубый вариант того, как можно использовать технологии обработки информации, в частности, деревья решений, для достижения поставленной задачи: уменьшения риска при операциях кредитования физических лиц. Хотя и при таком первом приближении наблюдаются положительные результаты. Дальнейшие усовершенствования могут затрагивать такие моменты, как:

- более точный подбор определяющих заемщика факторов;

- изменение самой постановки задачи, так, например, вместо двух значений целевого параметра, можно использовать более детальную информацию (Вернул/Не вернул/Не вовремя) или использовать в качестве целевого значения веро­ятность того, что деньги выплачены вовремя;

- в данном примере ни слова не говорится об очистке данных, хотя, как показывает практика, использование предобработки исходных данных позволяет значительно улучшить качество результата и является важным этапом при комплексном подходе к решению любой задачи анализа данных.

Изменяя значения параметров вкладки Что-если, можно выполнить классификацию клиентов и тем самым получить ответ на вопрос: «Давать ли кредит?».

На вкладке Дерево решений можно получить записанные на естественном языке правила, определяющие принадлежность заемщика к той или иной группе (классу).

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: