Методы кластеризации

Основные метода кластеризации представлены на схеме 1.

метод одиночной связи
Дисперсионные методы
методы связи
агломеративные
неиерархические
иерархические
Методы кластеризации

метод средней связи
метод полной связи

Иерархическая кластеризация – характеризуется построением иерархии (древовидной структуры). Среди методов иерархической кластеризации выделяют агломеративные и дивизивные методы.

Агломеративная кластеризация – иерархический метод, при котором каждый объект первоначально находится в отдельном кластере. Кластеры формируют, группируя объекты каждый раз во все более и более крупные кластеры.

Разделяющая или дивизивная кластеризация – иерархический метод, при котором все объекты первоначально находятся в одном большом кластере, и кластеры формируют делением этого большого кластера на более мелкие

Обычно в маркетинговых исследованиях используют агломеративные методы, среди которых можно выделить:

Методы связи – агломеративные методы иерархической кластеризации, которые объединяют объекты в кластер, исходя из вычисленного расстояния между ними. В свою очередь методы связи подразделяются на:

· метод одиночной связи – в основе этого метода лежит минимальное расстояние между объектами или правило «ближайшего соседа»

· метод полной связи – аналогичен методу одиночной связи, за исключением того, что в его основе лежит максимальное расстояние между объектами или правило «дальнего соседа», то есть расстояние между двумя кластерами здесь – это расстояние между двумя самыми удаленными точками.

· метод средней связи – действия аналогичны двум предыдущим методам, но в этом методе расстояние между двумя кластерами определяют как среднее значение всех расстояний, измеренных между объектами двух кластеров, при этом в каждую пару входят объекты из разных кластеров.

Дисперсионный метод – агломеративный метод иерархической кластеризации, в котором кластеры формируют так, чтобы минимизировать внутрикластерную дисперсию. Чаще всего используют метод Варда, когда кластеры формирую таким образом, чтобы минимизировать квадраты Евклидовых расстояний до кластерных средних. Для каждого кластера вычисляются средние для всех переменных, затем для каждого объекта вычисляют квадраты Евклидовых расстояний до кластерных средних, и эти квадраты расстояний суммируют для всех объектов, и на каждой стадии (при объединении) объединяют два кластера с наименьшим приростом полной внутрикластерной дисперсии.

Центроидный метод – расстояние между двумя кластерами представляет собой расстояние между их центроидами. Центроид – это средняя для всех переменных.

Из всех иерархических методов метод средней связи и метод Варда показывают наилучшие результаты по сравнению с другими методами.

К другим методам кластеризации относятся неиерархические методы или методы к-средних – это методы, при которых сначала определяется центр кластера, а затем группируют все объекты в переделах заданных от центра пороговых значений.

В последовательном пороговом методе выбирают центр кластера, и все объекты, находящиеся в пределах заданного от центра порогового значения, группируют вместе. Затем выбирают уже новый кластерный центр, и процесс повторяют для несгруппированных точек. Смысл в том, что если объект уже попал в какой-то кластер, то в дальнейшем уже не рассматривается как объект кластеризации.

Аналогично работает параллельный пороговый метод, но за исключением того, что одновременно выбирается несколько кластерных центров, и объекты в пределах порогового уровня группируют с ближайшим центром.

Метод оптимизирующего распределения – отличается от двух предыдущих пороговых методов тем, что объекты можно впоследствии перераспределить, чтобы оптимизировать суммарный критерий. Например, среднее внутрикластерное расстояние для данного числа кластеров.

Вывод: два главных недостатка неиерархических методов состоит в том, что число кластеров определяется заранее, и выбор кластерных центров происходит независимо, более того, результаты кластеризации могут зависеть от выбранных центров, а также от порядка наблюдений. Неиерархическая кластеризация быстрее иерархических методов, и ее выгодно использовать при большом числе объектов наблюдения. Но оптимально использовать оба метода кластеризации во взаимосвязи. Например, такие иерархические методы, как метод средней связи и метод Варда используют для получения оптимального числа кластеров и кластерных центроидов. Их потом используют в качестве исходных данных в методе оптимизирующего распределения.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: