Постановка задачи: построить модель оценки (классификации) потенциальных заемщиков, позволяющую принять решение о выдаче кредита или отказе на основе аналитической платформы Deductor Academic (фирмы BaseGroup Labs.
Решение поставленной задачи осуществляется в четыре этапа:
1. Выдвижение
2. Сбор и систематизация данных
3. Подбор модели и тестирование
4. Использование приемлемой модели и ее совершенствование.
Пользуясь приведенной выше методикой, предложим гипотезу о влиянии следующих факторов (таблица 2) на кредитоспособность заемщика.
Таблица 2 – Факторы, влияющие на кредитоспособность заемщика.
Возраст |
Пол |
Брак |
Иждивенцы |
Стаж работы |
Жилая недвижимость в собственности, $ |
Наличие кредита |
Личный доход в месяц после налогообложения, тенге |
Сумма кредита, тенге |
Месячный платеж, тенге |
Благонадежность |
Для построения модели оценки потенциальных заемщиков используются данные из анкет клиентов банка. Сформируем выборку из 50 человек, взявших потребительский кредит на срок – 1 год. Для фактора «Пол» используем значения: (0-женский, 1-мужской); для фактора «Состояние в браке»: (0- не состоящие в браке; 1 – состоящие в браке. Фактор благонадежности также бинарный (имеет два значения 0- не вернувшие кредит, 1 – вернувшие). Исходные данные были систематизированы в таблицу Excel и сохранены в виде текстового файла (с расширением txt) для последующего импортирования в Deductor.
Открываем приложение Deductor Studio Academic. Создаем новый файл: Файл-Создать. На вкладке Сценарии нажимаем кнопку Мастер импорта (рис. 2).
Рисунок 2 - Вкладка Сценарии
Указываем имя текстового файла для импорта (рис.3).
Рисунок 3 - Окно импорта текстового файла 2 из 7
Нажав на кнопку Далее указываем параметры импорта текстового файла (рис.4)
Рисунок 4 - Окно импорта текстового файла 3 из 7
Нажав на кнопку Далее устанавливаем параметры полей (рис.5).
Рисунок 5 - Окно импорта текстового файла 4 из 7
В рассматриваемой модели использовались следующие параметры: (таблица 3)
Таблица 3 - Параметры переменных
Имя столбца | Метка столбца | Тип данных | Вид данных | Назначение |
COL1 | № п/п | Вещественный | Непрерывный | Информационный |
COL2 | Возраст | Целый | Дискретный | Входное |
COL3 | Пол | Логический | Входное | |
COL4 | Брак | Логический | Входное | |
COL5 | Иждивенцы | Целый | Дискретный | Входное |
COL6 | Стаж работы | Вещественный | Непрерывный | Входное |
COL7 | Жилая недвижимость в собственности | Вещественный | Непрерывный | Входное |
COL8 | Наличие кредита | Логический | Входное | |
COL9 | Личный доход в месяц после налогообложения | Вещественный | Непрерывный | Входное |
COL10 | Сумма кредита, тенге | Вещественный | Непрерывный | Входное |
COL11 | Месячный платеж, тенге | Вещественный | Непрерывный | Входное |
COL12 | Благонадежность | Логический | Выходное |
В следующем окне импорта текстового файла нажимаем на кнопку Пуск (рис.6).
Рисунок 6 - Окно импорта текстового файла 5 из 7
После завершения процесса импорта, определяем нужный (-ые) способ(-ы) отображения данных: таблица, статистика, диаграмма, гистограмма, куб (рис.7).
Рисунок 7 - Окно импорта текстового файла 6 из 7
Выявим влияние установленных факторов (таблица 1) на фактор благонадежности. Для этого воспользуемся одним из методов Data Mining – Логистическая р егрессия (рис.8).
Рисунок 8 - Окно мастера обработки
В следующих окнах Мастера обработок указываем назначения столбцов и способы отображения результата (рис.:9-14).
Рисунок 9 - Окно Мастера обработок. Настройка назначений столбцов
Рисунок 10 - Окно Мастера обработок. Разбиение исходного множества на подмножества
Рисунок 11 - Окно Мастера обработок. Настройка параметров остановки обучения
Рисунок 12 - Окно Мастера обработок. Запуск процесса построения логистической регрессии
Рисунок 13 - Окно Мастера обработок. Определение способов отображения данных
Рисунок 14 - Окно Мастера обработок. Настройка назначений полей куба
После окончания процесса построения модели, результаты в выбранных ранее способах отображения появляются в левой части окна в соответствующих вкладках (рис.15).
Рисунок 15 – Страницы с результатами расчетов
На вкладке «Таблица» отражены исходные данные, а также рассчитанный программой фактор благонадежности (благонадежность_OUT) и рейтинг заемщика. Фрагмент таблицы представлен на рисунке 16.
Рисунок 16 – Рассчитанный рейтинг заемщика
Для оценки качества модели логистической регрессии проведем ROC-анализ.
Рассмотрим таблицу сопряженности (вкладка «таблица сопряженности»), получившуюся в нашем примере (рис.17).
Рисунок 17 - Таблица сопряженности
По данным таблицы видно, что из 12 клиентов, не вернувших кредит, 8 классифицированы программой верно, а 4 клиента определены программой как благонадежные. Т.е. ошибка первого рода составляет 33% (4/12=0,33).
Теперь рассмотрим клиентов, получивших кредит. Из 38 человек 35 классифицированы верно, а 3 клиента идентифицированы программой как некредитоспособные. Ошибка второго рода составила 8%.
Таким образом, если при выдаче кредита, мы будем руководствоваться имеющимися у нас данными по рассмотренным факторам, то риск дать кредит ошибочно – 33%, а не дать благонадежному клиенту – 8%.
В нашем случае минимизируется коммерческий риск, связанный с упущенной выгодой, но достаточно высок – кредитный риск, связанный с потерями ссуды и процентов.
На рисунке 18 представлена ROC-кривая (вкладка ROC – кривая) для построенной модели. По ее расположению и площади можно сделать вывод о высокой предсказательной способности модели (площадь под кривой равна 0,92, что согласно таблицы 1 свидетельствует о отличном качестве модели).
Рисунок 18 - ROC – кривая
Следовательно, модель можно использовать для прогнозирования вероятности возврата кредита.
В нашей модели чувствительность равна 91,67%, что означает, что 91,67% благонадежных заемщика будут выявлены классификатором. Специфичность равна 66,67%, следовательно, 33,3% недобросовестных заемщиков получат одобрение в выдаче кредита (кредитный риск).
Таким образом, при помощи логистической регрессии ROC-анализа осуществляется управление рисками в кредитовании.
Рассмотрим использование построенной модели, для прогнозирования возврата кредита воспользовавшись инструментом «Что-если» (вкладка «Что-если»).
Предположим, нужно принять решение о выдаче/отказе кредита клиенту со следующими характеристиками: мужчина 27 лет, состоящий в браке, имеющий одного ребенка, работает, стаж работы 5 лет, имеет недвижимость стоимостью 45000$, личный доход в месяц после налогообложения составляет 50 000 тенге.
Клиент предполагает взять потребительский кредит сроком на год, расчетный месячный платеж будет составлять 13 518 тенге.
Введя указанные данные в страницу Что-если (рис.19), получим результат, что клиент является платежеспособным, причем программа подсчитывает и рейтинг клиента – 0,93.
Рисунок 19 - Использование инструмента «Что-если»
Рассчитываемые рейтинги можно использовать для ранжирования клиентов. Например, один клиент имеет расчетный рейтинг 0,94, другой 0,98. Предпочтение следует отдать клиенту с более высоким рейтингом.
Таким образом, рассмотренный инструмент можно использовать для поддержки принятия решения менеджером.
Вопросы для самопроверки:
1. Каковы основные возможности Deductor Academic?
2. В чем сущность методики Data Mining?
3. Что такое логистическая регрессия?
4. Что показывает таблица сопряженности?