Таблицы сопряженности и парадокс Симпсона

Построение таблицы сопряженности

В файле «Возврат кредитов.xlsx» содержатся данные о потребительских кредитах и кредитах для приобретения автомобилей, выданных двумя банками. Для каждого кредитного договора указан банк, выдавший кредит, назначение кредита (потребительский кредит или автокредит) и статус договора (погашен или не погашен).

Построим таблицу сопряженности. Отформатируем исходные данные как таблицу и вставим, начиная с ячейки $D$1, сводную таблицу. В качестве строк сводной таблицы используйте признаки «Банк» и «Тип кредита». В качестве столбцов признак «Статус», а в качестве значений — «Количество по полю Статус».

 

 

 

Визуализация таблицы сопряжения

Вставим еще одну точно такую же сводную таблицу, начиная с ячейки $D$11. В всплывающем меню, находясь на одном из числовых элементов новой сводной таблицы, выберем «Дополнительные вычисления» — «% от суммы по столбцу».

Во второй таблице указано, какой процент каждого типа кредитов в каждом банке был возвращен, а какой не был возвращен.

Соответствующие сводные диаграммы представлены ниже.

В банке-А не было возвращено 7,50% автокредитов, а в банке-Б не было возвращено 14,92% автокредитов—риск не возврата автокредита в банке-А существенно ниже, чем в банке-Б. Риск невозврата потребительских кредитов в банке-А также существенно ниже, чем в банке-Б: в банке-А не было возвращено 20,00% потребительских кредитов, а в банке-Б не было возвращено 31,82% потребительских кредитов.

Утверждение, следующее из анализа таблицы сопряженности, на первый взгляд, противоречит здравому смыслу: в целом риск невозврата кредита в банке-А (17,50%) в ы ш е, чем в банке-Б (16,75%)!

Примечание: Данное явление называется парадоксом Симпсона ( подробнее можно ознакомиться по ссылке https://ru.wikipedia.org/wiki/ Парадокс_Симпсона).


 

Иерархия признаков


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: