Для выполнения практической работы необходимо скачать по следующей ссылке программу Deductor Academic https://basegroup.ru/deductor/download и установить

Постановка задачи: построить модель оценки (классификации) потенциальных заемщиков, позволяющую принять решение о выдаче кредита или отказе на основе аналитической платформы Deductor Academic (фирмы BaseGroup Labs.

Решение поставленной задачи осуществляется в четыре этапа:

1. Выдвижение

2. Сбор и систематизация данных

3. Подбор модели и тестирование

4. Использование приемлемой модели и ее совершенствование.

Пользуясь приведенной выше методикой, предложим гипотезу о влиянии следующих факторов (таблица 2) на кредитоспособность заемщика.

Таблица 2 – Факторы, влияющие на кредитоспособность заемщика.

Возраст

Пол

Брак

Иждивенцы

Стаж работы

Жилая недвижимость в собственности, $

Наличие кредита

Личный доход в месяц после налогообложения, тенге

Сумма кредита, тенге

Месячный платеж, тенге

Благонадежность

Для построения модели оценки потенциальных заемщиков используются данные из анкет клиентов банка. Сформируем выборку из 50 человек, взявших потребительский кредит на срок – 1 год. Для фактора «Пол» используем значения: (0-женский, 1-мужской); для фактора «Состояние в браке»: (0- не состоящие в браке; 1 – состоящие в браке. Фактор благонадежности также бинарный (имеет два значения 0- не вернувшие кредит, 1 – вернувшие). Исходные данные были систематизированы в таблицу Excel и сохранены в виде текстового файла (с расширением txt) для последующего импортирования в Deductor.

Открываем приложение Deductor Studio Academic. Создаем новый файл: Файл-Создать. На вкладке Сценарии нажимаем кнопку Мастер импорта (рис. 2).

Рисунок 2 - Вкладка Сценарии

Указываем имя текстового файла для импорта (рис.3).

Рисунок 3 - Окно импорта текстового файла 2 из 7

Нажав на кнопку Далее указываем параметры импорта текстового файла (рис.4)

Рисунок 4 - Окно импорта текстового файла 3 из 7

Нажав на кнопку Далее устанавливаем параметры полей (рис.5).

Рисунок 5 - Окно импорта текстового файла 4 из 7

В рассматриваемой модели использовались следующие параметры: (таблица 3)

Таблица 3 - Параметры переменных

Имя столбца	Метка столбца	Тип данных	Вид данных	Назначение
COL1	№ п/п	Вещественный	Непрерывный	Информационный
COL2	Возраст	Целый	Дискретный	Входное
COL3	Пол	Логический		Входное
COL4	Брак	Логический		Входное
COL5	Иждивенцы	Целый	Дискретный	Входное
COL6	Стаж работы	Вещественный	Непрерывный	Входное
COL7	Жилая недвижимость в собственности	Вещественный	Непрерывный	Входное
COL8	Наличие кредита	Логический		Входное
COL9	Личный доход в месяц после налогообложения	Вещественный	Непрерывный	Входное
COL10	Сумма кредита, тенге	Вещественный	Непрерывный	Входное
COL11	Месячный платеж, тенге	Вещественный	Непрерывный	Входное
COL12	Благонадежность	Логический		Выходное

В следующем окне импорта текстового файла нажимаем на кнопку Пуск (рис.6).

Рисунок 6 - Окно импорта текстового файла 5 из 7

После завершения процесса импорта, определяем нужный (-ые) способ(-ы) отображения данных: таблица, статистика, диаграмма, гистограмма, куб (рис.7).

Рисунок 7 - Окно импорта текстового файла 6 из 7

Выявим влияние установленных факторов (таблица 1) на фактор благонадежности. Для этого воспользуемся одним из методов Data Mining – Логистическая р егрессия (рис.8).

Рисунок 8 - Окно мастера обработки

В следующих окнах Мастера обработок указываем назначения столбцов и способы отображения результата (рис.:9-14).

Рисунок 9 - Окно Мастера обработок. Настройка назначений столбцов

Рисунок 10 - Окно Мастера обработок. Разбиение исходного множества на подмножества

Рисунок 11 - Окно Мастера обработок. Настройка параметров остановки обучения

Рисунок 12 - Окно Мастера обработок. Запуск процесса построения логистической регрессии

Рисунок 13 - Окно Мастера обработок. Определение способов отображения данных

Рисунок 14 - Окно Мастера обработок. Настройка назначений полей куба

После окончания процесса построения модели, результаты в выбранных ранее способах отображения появляются в левой части окна в соответствующих вкладках (рис.15).

Рисунок 15 – Страницы с результатами расчетов

На вкладке «Таблица» отражены исходные данные, а также рассчитанный программой фактор благонадежности (благонадежность_OUT) и рейтинг заемщика. Фрагмент таблицы представлен на рисунке 16.

Рисунок 16 – Рассчитанный рейтинг заемщика

Для оценки качества модели логистической регрессии проведем ROC-анализ.

Рассмотрим таблицу сопряженности (вкладка «таблица сопряженности»), получившуюся в нашем примере (рис.17).

Рисунок 17 - Таблица сопряженности

По данным таблицы видно, что из 12 клиентов, не вернувших кредит, 8 классифицированы программой верно, а 4 клиента определены программой как благонадежные. Т.е. ошибка первого рода составляет 33% (4/12=0,33).

Теперь рассмотрим клиентов, получивших кредит. Из 38 человек 35 классифицированы верно, а 3 клиента идентифицированы программой как некредитоспособные. Ошибка второго рода составила 8%.

Таким образом, если при выдаче кредита, мы будем руководствоваться имеющимися у нас данными по рассмотренным факторам, то риск дать кредит ошибочно – 33%, а не дать благонадежному клиенту – 8%.

В нашем случае минимизируется коммерческий риск, связанный с упущенной выгодой, но достаточно высок – кредитный риск, связанный с потерями ссуды и процентов.

На рисунке 18 представлена ROC-кривая (вкладка ROC – кривая) для построенной модели. По ее расположению и площади можно сделать вывод о высокой предсказательной способности модели (площадь под кривой равна 0,92, что согласно таблицы 1 свидетельствует о отличном качестве модели).

Рисунок 18 - ROC – кривая

Следовательно, модель можно использовать для прогнозирования вероятности возврата кредита.

В нашей модели чувствительность равна 91,67%, что означает, что 91,67% благонадежных заемщика будут выявлены классификатором. Специфичность равна 66,67%, следовательно, 33,3% недобросовестных заемщиков получат одобрение в выдаче кредита (кредитный риск).

Таким образом, при помощи логистической регрессии ROC-анализа осуществляется управление рисками в кредитовании.

Рассмотрим использование построенной модели, для прогнозирования возврата кредита воспользовавшись инструментом «Что-если» (вкладка «Что-если»).

Предположим, нужно принять решение о выдаче/отказе кредита клиенту со следующими характеристиками: мужчина 27 лет, состоящий в браке, имеющий одного ребенка, работает, стаж работы 5 лет, имеет недвижимость стоимостью 45000$, личный доход в месяц после налогообложения составляет 50 000 тенге.

Клиент предполагает взять потребительский кредит сроком на год, расчетный месячный платеж будет составлять 13 518 тенге.

Введя указанные данные в страницу Что-если (рис.19), получим результат, что клиент является платежеспособным, причем программа подсчитывает и рейтинг клиента – 0,93.

Рисунок 19 - Использование инструмента «Что-если»

Рассчитываемые рейтинги можно использовать для ранжирования клиентов. Например, один клиент имеет расчетный рейтинг 0,94, другой 0,98. Предпочтение следует отдать клиенту с более высоким рейтингом.

Таким образом, рассмотренный инструмент можно использовать для поддержки принятия решения менеджером.

Вопросы для самопроверки:

1. Каковы основные возможности Deductor Academic?

2. В чем сущность методики Data Mining?

3. Что такое логистическая регрессия?

4. Что показывает таблица сопряженности?