Интерпретация ассоциативных правил

Теперь остановимся на наиболее важном этапе – интерпретации ассоциативных правил. Дело в том, что ассоциативные правила сами по себе, как результат работы некоторого алгоритма, еще не готовы к использованию. Их нужно проинтерпретировать, т.е. понять, какие из ассоциативных правил представляют интерес, действительно ли правила отражают закономерности или, наоборот, являются артефактом. Это требует тщательной работы аналитика и понимания предметной области, в которой решается задача ассоциации.

Все множество ассоциативных правил можно разделить на три вида:

– Полезные правила – содержат действительную информацию, которая ранее была неизвестна, но имеет логичное объяснение. Такие правила могут быть использованы для принятия решений, приносящих выгоду.

– Тривиальные правила – содержат действительную и легко объяснимую информацию, которая уже известна. Такие правила, хотя и объяснимы, но не могут принести какой-либо пользы, т.к. отражают или известные законы в исследуемой области, или результаты прошлой деятельности. При анализе рыночных корзин в правилах с самой высокой поддержкой и достоверностью окажутся товары-лидеры продаж. Практическая ценность таких правил крайне низка.

– Непонятные правила – содержат информацию, которая не может быть объяснена. Такие правила могут быть получены или на основе аномальных значений, или глубоко скрытых знаний. Напрямую такие правила нельзя использовать для принятия решений, т.к. их необъяснимость может привести к непредсказуемым результатам. Для лучшего понимания требуется дополнительный анализ.

Варьируя верхним и нижним пределами поддержки и достоверности, можно избавиться от очевидных и неинтересных закономерностей. Как следствие, правила, генерируемые алгоритмом, принимают приближенный к реальности вид. Понятия «верхний» и «нижний» предел очень сильно зависят от предметной области, поэтому не существует четкого алгоритма их выбора. Но есть ряд общих рекомендаций.

Полезные советы:

– большая величина параметра Максимальная поддержка означает, что алгоритм будет находить хорошо известные правила, или они будут настолько очевидными, что в них нет никакого смысла. Поэтому ставить порог Максимальная поддержка очень высоким (более 20 %) не рекомендуется;

– большинство интересных правил находится именно при низком значении порога поддержки, хотя слишком низкое значение поддержки ведет к генерации статистически необоснованных правил. Поэтому правила, которые кажутся интересными, но имеют низкую поддержку, дополнительно анализируйте по лифту, а при необходимости рассчитывайте для них левередж;

– ограничивайте Мощность часто встречающихся множеств – правила с большим числом предметов в условии трудно интерпретируются и воспринимаются;

– уменьшение порога достоверности приводит к увеличению количества правил. Значение минимальной достоверности не должно быть слишком маленьким, так как ценность правила с достоверностью 5 % чаще всего настолько мала, что это и правилом считать нельзя;

– правило с очень большой достоверностью (>8590 %) практической ценности в контексте решаемой задачи не имеет, т.к. товары, входящие в следствие, покупатель, скорее всего, уже купил.

1) При настройках алгоритма a priori по умолчанию получили 17 правил.

Например, первое правило Бумага туалетная → Освежитель воздуха

имеет S = 2,59 %; C = 58,89 % и L = 5,79 (рис. 9.7).

Рисунок 9.7 – Фрагмент сортировки по правилам

Это означает следующее:

– ожидаемая вероятность покупки набора Бумага туалетная +

Освежитель воздуха равна 2,59 %;

– если клиент положил в корзину товар Бумага туалетная, то с вероятностью 58,89 % он купит и Освежитель воздуха;

– клиент, купивший Бумагу туалетную, в 5,8 раз чаще выберет

Освежитель воздуха, нежели любой другой товар.

2) Анализ полученных правил позволяет прийти к выводу, что многие из них тривиальны:

– Мыло кусковое, Чистящий порошок, Зубная паста, Гель для туалета часто встречаются в условиях и следствиях правил, это лидеры продаж магазина (см. популярные наборы), поэтому и правила с ними имеют высокую достоверность (рис. 9.8);

– группа правил Стиральный порошок-автомат → Кондиционер для белья и наоборот тривиальны сами по себе: люди часто покупаю эти товары вместе.

– правила типа Запасной баллон для освежителя → Освежитель воздуха (и наоборот) тоже тривиальны, так как никому не нужен запасной баллон без освежителя.

Рисунок 9.8 – Следствие правил с высокой достоверностью

А вот правило Салфетки бумажные → Освежитель воздуха не понятное: почему салфетки бумажные покупаются именно с освежителем воздуха.

Однако обратимся к рисунку, в котором сделана попытка классифицировать все правила на тривиальные и непонятные.

Тот факт, что при достоверности 42–43 % встречаются тривиальные ассоциативные правила, говорит о том, что интересные правила содержатся при меньших значениях достоверности.

Попробуем сделать следующее:

– запустим алгоритм a priori с интервалом допустимой достоверности от 25 до 40 % (рис. 9.9);

Рисунок 9.9 – Настройка интервала допустимой достоверности

– не будем рассматривать правила, в следствиях и условиях которых содержатся Гель для туалета, Зубная паста, Мыло жидкое, Мыло кусковое, Освежитель воздуха, Чистящий порошок универсальный – это снова будут тривиальные правила (рис. 9.10).

Рисунок 9.10 – Настройка параметров для получения дополнительных правил

В итоге получим дополнительные правила, которые имеют достоверность меньше 40 % (рис. 9.11).

Как видно, все полученные правила можно назвать полезными: они не очевидны, но понятны.

Рисунок 9.11 – Выбор селектора

Например, возьмем правило номер 27 Пятновыводитель → Отбеливатель. Проанализируем это правило с помощью лифта. Его величина равна 2,886, что больше чем 1, значит, с помощью правила предсказать покупку отбеливателя вероятнее, чем случайным угадыванием.

Как можно применить на практике это правило? Это зависит от конкретных целей. Приведем всевозможные варианты (рис. 9.12).

Пятновыводитель → Отбеливатель

1. Разместите их рядом на витрине.

2. Разместите их на большом расстоянии друг от друга.

3. Сформируйте подарочные наборы «Пятновыводитель + Отбеливатель»

4. Сформируйте подарочные наборы «Пятновыводитель + Отбеливатель + плохо продаваемый товар».

5. Поднимите цену на одно, снизьте на другое.

6. Закажите комплекты пятновыводителей и отбеливателей одного бренда и серии.

Какова вероятность того, что клиент, купивший Антистатик-спрей,

купит и Средство для мытья посуды?

Рисунок 9.12 – Результат работы алгоритма

4. Визуализатор Что-если в ассоциативных правилах

1) Кроме уже изученных визуализаторов Правила, Популярные наборы и Дерево правил, в Deductor Studio к узлу Ассоциативные правила доступен визуализатор Что-если. Он позволяет ответить на вопрос, что мы получим в качестве следствия, если выберем данные условия, например, какие товары, приобретаются совместно с выбранными товарами (рис. 9.13).

Рисунок 9.13 – Визуализатор Что-если

В окне слева расположен список всех элементов транзакций. Справа от каждого элемента указана поддержка: сколько раз данный элемент встречается в транзакциях.

В правом верхнем углу расположен список элементов, входящих в условие, выбирается он с помощью двойного щелчка левой кнопки мыши или вспомогательных кнопок . Это, например, список товаров, которые приобрел покупатель. Для них можно найти следствие, нажав на кнопку (Вычислить правила) или (Автоматически вычислить правила). Причем в условие могут входить несколько элементов, или товаров. Тогда в следствие попадут все товары, условия которых удовлетворяют списку ассоциативных правил.

2) Например, клиент заказал Зубную паста и Пятновыводитель. Что еще ему можно предложить? Поскольку у нас имеются два правила, а именно:

а) Зубная паста → Чистящий порошок;

б) Пятновыводитель → Отбеливатель;

то в следствие попадут два элемента – Чистящий порошок и

Отбеливатель.

Это проиллюстрировано на рис. 9.14.

Информация о купленных товарах вносится продавцом в отчет и тут же формируется набор предложений, который озвучивается клиенту.

С помощью встроенных возможностей можно настроить интерактивный отчет возможных предложений-напоминаний клиенту. Для этого используются следующие кнопки:

Автоматически вычислить правила – позволяет рассчитывать новый набор следствий после каждого добавления товара в набор условий;

Порядок сортировки, Направление сортировки – позволяют упорядочить «список предложений» по одному из выбранных параметров (поддержка, достоверность, лифт);

Фильтрация правил – задаются ограничения на формируемый

«список предложений»;

Тип определения лучшего правила – при повторении наименований товаров в «списке предложений» позволяет отображать, один из них, в соответствии с лучшей характеристикой.