Построение таблицы сопряженности
В файле «Возврат кредитов.xlsx» содержатся данные о потребительских кредитах и кредитах для приобретения автомобилей, выданных двумя банками. Для каждого кредитного договора указан банк, выдавший кредит, назначение кредита (потребительский кредит или автокредит) и статус договора (погашен или не погашен).
Построим таблицу сопряженности. Отформатируем исходные данные как таблицу и вставим, начиная с ячейки $D$1, сводную таблицу. В качестве строк сводной таблицы используйте признаки «Банк» и «Тип кредита». В качестве столбцов признак «Статус», а в качестве значений — «Количество по полю Статус».
Визуализация таблицы сопряжения
Вставим еще одну точно такую же сводную таблицу, начиная с ячейки $D$11. В всплывающем меню, находясь на одном из числовых элементов новой сводной таблицы, выберем «Дополнительные вычисления» — «% от суммы по столбцу».
Во второй таблице указано, какой процент каждого типа кредитов в каждом банке был возвращен, а какой не был возвращен.
Соответствующие сводные диаграммы представлены ниже.
В банке-А не было возвращено 7,50% автокредитов, а в банке-Б не было возвращено 14,92% автокредитов—риск не возврата автокредита в банке-А существенно ниже, чем в банке-Б. Риск невозврата потребительских кредитов в банке-А также существенно ниже, чем в банке-Б: в банке-А не было возвращено 20,00% потребительских кредитов, а в банке-Б не было возвращено 31,82% потребительских кредитов.
Утверждение, следующее из анализа таблицы сопряженности, на первый взгляд, противоречит здравому смыслу: в целом риск невозврата кредита в банке-А (17,50%) в ы ш е, чем в банке-Б (16,75%)!
Примечание: Данное явление называется парадоксом Симпсона ( подробнее можно ознакомиться по ссылке https://ru.wikipedia.org/wiki/ Парадокс_Симпсона).
Иерархия признаков