Кластерный анализ

Метод кластерного анализа позволяет строить классификацию п объектов посредством объединения их в группы или кластеры на основе критерия минимума расстояния в пространстве т перемен­ных, описывающих объекты. Метод позволяет находить разбиение множества объектов на заданное число кластеров.

Кластерный анализ носит количественный характер, но статис­тические пакеты обычно не предлагают методов проверки гипоте­зы об адекватности получаемых классификаций.

Исходные данные для кластерного анализа представляются в виде матрицы размером т х п, содержащей информацию одного из сле­дующих трех типов:

измерения Хij значений т переменных для п объектов;

квадратная = п) матрица расстояний между парами объектов;

квадратная (т — п) матрица близостей для всех пар п объектов.

Объектами могут быть товары разных фирм, например легковые автомобили. Переменными могут быть их характеристики, значи­мые для покупателей. В этом случае кластерный анализ позволяет объективно разделить их на группы и облегчить позиционирование автомобиля предприятия по отношению к конкурентам, обосно­вать назначение цены.

Другим видом объектов могут быть регионы страны. Если в ка­честве переменных использовать уровень доходов и уровень цен, то можно классифицировать регионы по уровню благосостояния. Мож­но в качестве переменных взять 32 показателя благосостояния, ре­комендуемые ООН, тогда классификация будет всесторонней. На ее основе можно планировать региональную экономическую поли­тику.

В ряде статистических пакетов в матрице близостей или в матри­це расстояний может быть заполнена лишь левая нижняя половина под диагональю, верхняя половина может быть заполнена нулями.

Если исходные данные представляют собой значения т пере­менных для п объектов, то необходимо выбрать стратегию объеди­нения и метод вычисления расстояния dij между объектами в мно­гомерном пространстве—метрики.

Дивизивная стратегия динамических сгущений позволяет сгруппи­ровать объекты в заданное число кластеров.

В случае дивизивной стратегии кластеризации необходимо ука­зать число кластеров, на которое желательно разбить множество объектов, причем окончательное количество кластеров может по­лучиться меньше этого числа, если затребованное разбиение для имеющихся данных невозможно.

Промежуточным результатом анализа являются среднее внутри-кластерное расстояние, по которому можно сравнивать различные варианты кластеризации, и кластеры с указанием в каждый клас­тер объектов.

В случае использования матрицы переменные-объекты можно по­лучить проекции на плоскость каждых двух переменных графика кластеров, на котором объекты каждого кластера соединяются ли­ниями с центральным объектом. Они позволяют наглядно предста­вить характеристики классификации.

Агломеративная стратегия позволяет строить дендрограмму клас­сификации в ходе иерархического процесса объединения класте­ров. Часто используют следующие варианты этой стратегии:

стратегия ближайшего соседа очень сильно сжимает простран­ство исходных переменных и рекомендуется для получения мини­мального дерева взамен групповой классификации;

стратегия дальнего соседа сильно растягивает пространство;

стратегия группового соседа сохраняет метрику пространства;

гибкая стратегия универсальна и зависит от значения бета-па­раметра (параметр должен быть < 1,0); при бета = 0 метрика не меняется, при бета > 0 пространство сжимается, а при бета < 0 — растягивается;

метод Уорда минимизирует внутрикластерный разброс объек­тов, дендрограмма получается с гипертрофированно разделенны­ми кластерами.

В случае агломеративной стратегии можно получить матрицы расстояний между объектами. Кроме того, можно получить после­довательность кластеров возрастающей общности с указанием вхо­дящих в кластеры объектов и расстояния, на уровне которых про­изошло объединение кластеров.

В результате анализа строится дендрограмма — дерево объедине­ния кластеров с порядковыми номерами объектов по одной оси и со шкалой расстояний — по другой.

При выполнении анализа расстояния оценивают с использова­нием различных метрик.

Евклидова метрика, знакомая всем из школьного курса геомет­рии, применима для переменных, измеренных в одних единицах.

Нормализованная евклидова метрика более подходит для пере­менных, измеренных в различных единицах или сильно различаю­щихся по величине.

Метрика суммы квадратов может использоваться, чтобы страте­гии объединения были аддитивны по отношению к переменным, то есть чтобы расстояние между кластерами было равно сумме рас­стояний между их компонентами.

Если переменные обладают существенно различной значимос­тью, то целесообразно взвешенное суммирование квадратов, но при этом матрица данных должна содержать веса переменных.

Манхеттеновская метрика, как правило, применяется для но­минальных или качественных, ранговых переменных.

Метрика Брея—Картиса для номинальных и ранговых данных имеет значения между 0 и 1, переменные с большими значениями оказывают большее влияние на результат.

Канберрова метрика для номинальных и ранговых переменных также лежат между 0 и 1, но обладают нечувствительностью к сильно асимметричным данным. Применение этой метрики при наличии нулевых и отрицательных значений нежелательно, поэтому реко­мендуется предварительно преобразовать данные путем сложения каждой переменной с некоторым значением.

В некоторых случаях необходимо классифицировать не объекты, а переменные, отобрав для дальнейшего анализа наиболее удален­ные переменные. В этом случае можно прямо воспользоваться мет­рикой, основанной на коэффициенте корреляции, а также любой другой метрикой, предварительно транспонировав матрицу данных. Вероятностное обоснование результатов кластеризации можно получить методом дискриминантного анализа.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: