Интерпретация ассоциативных правил

Описание бизнес-задачи

Постановка задачи. Розничная сеть по продаже товаров бытовой химии поставила задачу анализа покупательских корзин для оптимизации размещения товаров на витринах и проведения кросс-продаж. Отдел маркетинга предоставил 5000 чеков, в которых отражены покупки, сделанные клиентами магазинов. Требуется:

□ предсказать, какие товары покупатели могут выбрать в зависимости от того, что уже есть в их корзинах;

□ выявить наиболее популярные товарные наборы, состоящие из более чем одного предмета;

□ предложить рекламные акции типа: «Каждому купившему A и B – товар C в подарок».

Исходные данные. Создать файл Чеки.txt двумя полями – Номер транзакции и Товар. Поскольку номенклатура товаров бытовой химии очень разнообразна, решено ограничиться представлением товаров в обобщенной форме без торговых марок: порошки, моющие средства и т.д. (всего 37 наименований).

Используя алгоритм a priori, извлечем ассоциативные правила и проинтерпретируем их.

Выявление ассоциаций

В Deductor Studio для решения задач ассоциации используется обработчик Ассоциативные правила, в котором реализован алгоритм a priori. Узел требует, чтобы на входе было два поля: идентификатор транзакции и элемент транзакции. Например, идентификатор транзакции – это номер чека или код клиента, а элемент – это наименование товара в чеке или услуга, заказанная клиентом.

ЗАМЕЧАНИЕ

Оба поля (идентификатор и элемент транзакции) должны быть дискретного вида.

В новом проекте в Deductor Studio импортируйте данные из текстового файла Чеки.txt. К узлу импорта добавьте обработчик Ассоциативные правила. Поле ID сделайте идентификатором транзакции, a ITEM – ее элементом (рис. 3.1).

Рис. 3.1. Настройка назначения входных полей для решения задачи ассоциации

На следующем шаге настройте параметры алгоритма a priori (рис. 3.2).

Здесь доступны следующие опции.

Минимальная и максимальная поддержка, % – ограничивают пространство поиска часто встречающихся предметных наборов. Эти границы определяют множество популярных наборов, или частых предметных наборов, из которых и будут создаваться ассоциативные правила.

Минимальная и максимальная достоверность, % – в результирующий набор попадут только те ассоциативные правила, которые удовлетворяют условиям минимальной и максимальной достоверности.

Максимальная мощность искомых часто встречающихся множеств – параметр ограничивает длину k-предметного набора. Например, при установке значения 4 шаг генерации популярных наборов будет остановлен после получения множества 4-предметных наборов. В конечном итоге это позволяет избежать появления длинных ассоциативных правил, которые трудно интерпретируются.

Все настройки оставьте предлагаемыми по умолчанию. Нажатие кнопки Пуск запустит работу алгоритма поиска ассоциативных правил, по окончании которой справа в полях появится следующая информация (рис. 3.3):

□ Кол-во множеств – число популярных наборов, удовлетворяющих заданным условиям минимальной поддержки и достоверности (93 набора);

□ Кол-во правил – число сгенерированных ассоциативных правил (найдено 18 правил).

Рис. 3.2. Параметры алгоритма a priori

Рис. 3.3. Процесс выявления ассоциаций

Далее выбираете все доступные специализированные визуализаторы и визуализаторы Таблица и Куб (рис. 3.4).

Рис. 3.4. Доступные визуализаторы

Все эти визуализаторы, кроме Что-если, отображают результаты работы алгоритма в различных формах.

На вкладке Популярные наборы, как следует из названия, в виде списка отображается множество найденных популярных предметных наборов, которые можно отфильтровать и отсортировать. Например, задав в фильтре минимальное значение поддержки 6% и отсортировав записи по ее убыванию, получим следующие 16 популярных наборов (рис. 3.5).

На вкладке Дерево правил предлагается еще один удобный способ отображения множества ассоциативных правил. При построении дерева по условию на первом (верхнем) уровне находятся узлы с условиями, а на втором – узлы со следствием. В дереве, построенном по следствию, наоборот, на первом уровне располагаются узлы со следствием.

Справа от дерева расположен список правил, построенный по выбранному узлу дерева (рис. 3.6).

Для каждого правила отображаются поддержка и достоверность. Если дерево построено по условию, то вверху списка находится условие правила, а список состоит из его следствий. Тогда правила отвечают на вопрос: что будет при таком условии?

Если же дерево построено по следствию, то вверху списка отображается следствие правила, а список состоит из его условий. Эти правила отвечают на вопросы: что нужно для того, чтобы получилось заданное следствие, или какие товары нужно продать для того, чтобы продать товар из следствия?

Рис. 3.5.Популярные наборы с поддержкой более 6 %

Рис. 3.6. Дерево ассоциативных правил

Интерпретация ассоциативных правил

Теперь остановимся на наиболее важном этапе – интерпретации ассоциативных правил. Дело в том, что ассоциативные правила сами по себе, как результат работы некоторого алгоритма, еще не готовы к использованию. Их нужно проинтерпретировать, то есть понять, какие из ассоциативных правил представляют интерес, действительно ли правила отражают закономерности или, наоборот, являются артефактом. Это требует от аналитика тщательной работы и понимания предметной области, в которой решается задача ассоциации.

Все множество ассоциативных правил можно разделить на три вида.

□ Полезные правила содержат действительную информацию, которая ранее была неизвестна, но имеет логичное объяснение. Такие правила могут быть использованы для принятия решений, приносящих выгоду.

□ Тривиальные правила содержат действительную и легко объяснимую информацию, которая уже известна. Такие правила, хотя и объяснимы, но не могут принести какой-либо пользы, так как отражают или известные законы в исследуемой области, или результаты прошлой деятельности. При анализе рыночных корзин в правилах с самой высокой поддержкой и достоверностью окажутся товары – лидеры продаж. Практическая ценность таких правил крайне низка.

□ Непонятные правила содержат информацию, которая не может быть объяснена. Такие правила получаются на основе или аномальных значений, или глубоко скрытых знаний. Напрямую эти правила нельзя использовать для принятия решений, так как их необъяснимость может привести к непредсказуемым результатам. Для лучшего понимания требуется дополнительный анализ.

Варьируя верхний и нижний пределы поддержки и достоверности, можно избавиться от очевидных и неинтересных закономерностей. Как следствие, правила, генерируемые алгоритмом, принимают приближенный к реальности вид. Значения верхнего и нижнего пределов сильно зависят от предметной области, поэтому не существует четкого алгоритма их выбора. Но есть ряд общих рекомендаций.

□ Большая величина максимальной поддержки означает, что алгоритм будет находить правила, хорошо известные или же настолько очевидные, что в них нет никакого смысла. Поэтому ставить порог максимальной поддержки очень высоким (более 20 %) не рекомендуется.

□ Большинство интересных правил находится именно при низком значении порога поддержки, хотя слишком низкое значение ведет к генерации статистически необоснованных правил. Поэтому правила, которые кажутся интересными, но имеют низкую поддержку, нужно дополнительно анализировать.

□ Уменьшение порога достоверности приводит к увеличению количества правил. Значение минимальной достоверности не должно быть слишком низким, так как ценность правила с достоверностью 5% чаще всего настолько мала, что это и правилом считать нельзя.

□ Правило с очень большой достоверностью (> 85-90%) практической ценности в контексте решаемой задачи не имеет, так как товары, входящие в следствие, покупатель, скорее всего, уже приобрел.

Вернемся к задаче. Представим результаты расчетов в OLAP-кубе, как это показано на рис. 3.7.

Рис. 3.7. Ассоциативные правила в OLAP-кубе

Например, правило кондиционер для белья → стиральный порошок-автомат имеет S = 3,86%; С = 84,95%. Это означает следующее.

□ Ожидаемая вероятность покупки набора кондиционер для белья + стиральный порошок-автомат равна 3,86%.

□ Если клиент положил в корзину кондиционер для белья, то с вероятностью 84,95% он купит и стиральный порошок-автомат.

Анализ правил позволяет прийти к выводу, что многие из них тривиальны, так как это лидеры продаж магазина (см. популярные наборы, рис. 3.5), хотя есть и интересные правила (например, средство от накипи → чистящий порошок универсальный). И тот факт, что при достоверности 42-43% встречаются тривиальные ассоциативные правила (например, мыло кусковое → мыло жидкое), говорит о том, что можно найти интересные правила при меньших значениях достоверности. Сделаем следующее:

□ запустим алгоритм a priori с интервалом допустимой достоверности от 25 до 40%;

□ не будем рассматривать правила с лидерами продаж: это снова будут тривиальные правила.

В итоге получим как вариант следующие дополнительные правила (рис. 3.8). Как видно, все эти правила можно назвать полезными: они неочевидны, но понятны. Например, возьмем правило пятновыводитель → отбеливатель.