Изучение модели кластеризации

Алгоритм кластеризации (Майкрософт) выполняет группировку вариантов в кластеры, которые имеют одинаковые характеристики. Такие группирования полезно использовать для просмотра данных, выявления в них аномалий и создания прогнозов.

 

Вкладка «Схема кластеров (Cluster diagram)»

Вкладка «Схема кластеров» содержит все кластеры, которые имеются в модели интеллектуального анализа данных. Линии между кластерами показывают «близость», а их заливка отражает степень схожести кластеров. Цвет каждого из кластеров указывает на частоту появления переменной и состояние в кластере.

Используйте список «Модель интеллектуального анализа данных (Mining Model)», расположенный вверху окна «Средство просмотра моделей интеллектуального анализа данных (Mining Model Viewer)» для перехода к модели «TM_Clustering».

В списке «Средство просмотра» выберите «Средство просмотра кластеров (Майкрософт)».

В поле «Переменная заливки (Shading Variable)» выберите «Покупатель велосипеда (Bike buyer)».

По умолчанию используется переменная «Заполнение», однако в роли такой переменной может выступать любой атрибут модели, что позволяет выяснить, какие кластеры содержат члены с требуемыми атрибутами.

Выберите 1 в поле «Состояние (State)», чтобы изучить те варианты, когда состоялась покупка велосипеда.

Обозначение «Плотность (Density)» описывает плотность пар состояний атрибутов, выбранных в полях «Переменная заливки» и «Состояние». В данном примере это указывает, что кластер с самой темной заливкой имеет наибольший процент покупателей велосипедов.

Наведите указатель мыши на кластер с самой темной заливкой.

Во всплывающей подсказке отобразится процент вариантов, у которых атрибут «Bike Buyer = 1».

Выберите кластер с максимальной плотностью, щелкните его правой кнопкой мыши, выберите пункт «Переименовать кластер (Rename Cluster)» и введите «Много покупателей велосипедов» для последующей идентификации. Нажмите кнопку «ОК».

Найдите кластер с самой светлой заливкой (и с наименьшей плотностью). Щелкните данный кластер правой кнопкой мыши, выберите команду «Переименовать кластер (Rename cluster) и введите «Мало покупателей велосипедов. Нажмите кнопку «ОК».

Щелкните кластер Много покупателей велосипедов» и перетащите его в область панели, в которой явно видны его соединения с другими кластерами.

При выборе кластера выделяются линии, соединяющие его с другими кластерами, что позволяет легко определить связи данного кластера. Если кластер не выделен, по цвету линий можно определить, насколько тесная связь между кластерами схемы. Светлая заливка или отсутствие заливки означает, что кластеры не очень схожи.

С помощью ползунка, расположенного слева от сети, можно отфильтровывать слабые связи и находить кластеры с наиболее близкими связями. Отделу маркетинга компании Adventure Works Cycles может потребоваться объединить похожие кластеры при определении наилучшего способа прямой почтовой рассылки.

 

Вкладка «Профили кластера»

Вкладка «Профили кластера (Cluster profiles)» содержит общие сведения о модели «TM_Clustering». На вкладке «Профили кластера (Cluster profiles)» есть столбец для каждого кластера модели. В первом столбце перечислены атрибуты, связанные по крайней мере с одним кластером. В оставшейся области средства просмотра отображается распределение состояний атрибута для каждого из кластеров. Распределение дискретной переменной показано цветным столбцом, при этом максимальное количество видимых столбцов задается в списке Столбцы гистограммы (Histogram bars)». Непрерывные атрибуты отображаются в ромбовидной диаграмме, отражающей среднее и стандартное отклонение в каждом из кластеров.

 

Изучение модели на вкладке «Профили кластера»

Установите значение столбцов «Гистограммы (Histogram bars)» равное 5.

В нашей модели значение 5 — это максимальное количество состояний для любой одной переменной.

Перенесите в сторону «Обозначения интеллектуального анализа данных (Mining legend)», если они препятствуют просмотру «Профилей атрибутов (Attribute profiles)».

Выберите столбец «Много покупателей велосипедов» и перетащите его таким образом, чтобы он оказался справа от столбца «Заполнение».

Выберите столбец «Мало покупателей велосипедов» и перетащите его таким образом, чтобы он оказался справа от столбца «Много покупателей велосипедов».

Щелкните столбец «Много покупателей велосипедов».

В столбце «Переменные (Variables)» установлена сортировка по важности для данного кластера. Просмотрите столбец и проанализируйте характеристики кластера «Много покупателей велосипедов». Например, вероятно, что они живут недалеко от работы.

Дважды щелкните ячейку «Возраст (Age)» в столбце «Много покупателей велосипедов».

В области «Обозначения интеллектуального анализа данных (Mining legend)» появится более детальное представление, где можно увидеть диапазон возрастной группы, а также средний возраст покупателей.

Щелкните правой кнопкой мыши столбец «Мало покупателей велосипедов и выберите пункт «Скрыть столбец (Hide Column)».

 

Вкладка «Характеристики кластера»

На вкладке «Характеристики кластера (Cluster characteristics) можно просмотреть подробные сведения о кластере. Вместо сравнения характеристик всех кластеров (как на вкладке «Профили кластера») кластеры можно анализировать по одному. Например, если выбрать «Много покупателей велосипедов» из списка «Кластер (Cluster)», можно просмотреть характеристики покупателей данного кластера. Хотя данное представление отличается от средства просмотра профилей кластера, результаты остаются такими же.

 

Вкладка «Сравнения кластеров (Cluster Discrimination)»

На вкладке «Сравнения кластеров (Cluster Discrimination)» можно выявить, какие характеристики отличают кластеры друг от друга. Если выбрать два кластера — один из списка «Кластер 1 (Cluster 1)» и один из списка «Кластер (Cluster)2», — то средство просмотра вычислит разницу между кластерами и отобразит список атрибутов, по которым эти кластеры различаются больше всего.

 

Изучение модели на вкладке «Сравнения кластеров»

В поле «Кластер 1 (Cluster 1)» выберите «Много покупателей велосипедов».

В поле «Кластер 2 (Cluster 2)» выберите «Мало покупателей велосипедов».

Для сортировки по алфавиту щелкните на заголовке столбца «Переменные (Variables)».

Некоторые из более существенных различий между покупателями в кластерах «Мало покупателей велосипедов» и «Много покупателей велосипедов» включают возраст, владение автомобилем, количество детей и регион.

 

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: