Проверка статистической значимости

Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам".

Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение". Поэтому проверка статистической значимости в действительности здесь неприменима.

Области применения

Техника кластеризации применяется в самых разнообразных об­ластях. Хартиган (Нагйдап, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, получен­ные методами кластерного анализа:

- в области медицины: кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям;

- в области психиатрии: правильная диагностика кластеров симптомов (паранойя, шизофрения и т.д.) является решающей для успешной терапии;

- в археологии: с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д.;

- в маркетинговых исследованиях: когда необходимо классифицировать "горы" информации к пригодным для дальнейшей обработкигруппам, кластерный анализ оказывается весьма полезным и эффективным.

Метод кластеризации - Объединение (древовидная кластеризация)

Общая логика: алгоритм состоит в объединении объектов в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами.

Типичным результатом такой кластеризации является иерархическое дерево.

Иерархическое дерево - горизонтальная древовидная диаграмма).

1) Диаграмма начинается с каждого объекта в классе (в левойчасти диаграммы).

2) Постепенно (очень малыми шагами) "ослабляем" критерий о том, какие объекты являются уникальными, а какие нет (понижаем порог, относящийся к решению об объединении двух или более объектов в один кластер).

3) Связываются вместе всё большее число объектов и объединяется все больше кластеров, состоящих из все сильнее различающихся элементов.

4) Окончательно, на последнем шаге все объекты объединяются в месте.

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

3 òûòòòòòòòòòø

7 ò÷ ùòòòòòòòòòòòòòø

6 òòòòòòòòòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòø

2 òòòòòòòòòòòûòòòòòòòòòòòòò÷ ó

8 òòòòòòòòòòò÷ ó

4 òòòûòòòòòø ó

5 òòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷

1 òòòòòòòòò÷

В результате успешного анализа методом объединения появля­ется возможность обнаружить кластеры (ветви) и интерпретировать их.

Меры расстояния

1) Расстояния могут определяться в одномерном или многомер­
ном пространстве {например: кластеризация типов еды в кафе, то
можете принять во внимание количество содержащихся в ней кало­
рий, цену, субъективную оценку вкуса и т.д.).

2) Вычисление расстояния

Евклидово расстояние. Это наиболее общий тип расстояния. Оно является реальным геометрическим расстоянием между объек­тами в многомерном пространстве и вычисляется следующим обра­зом:

расстояние(х,у) =

Расстояние городских кварталов (манхэттенское расстоя­ние). Это расстояние является просто средним разностей по коорди­натам. В большинстве случаев эта мера расстояния приводит к та­ким же результатам, как и для обычного расстояния Евклида.

расстояние(х,у) =

3) Правила объединения в кластеры

На первом шаге, когда каждый объект представляет собой отдельный кластер, расстоя­ния между этими объектами определяются выбранной мерой. Однако когда связываются вместе несколько объектов, возникает вопрос, как следует определить расстояния между кластерами?

Одиночная связь (метод ближайшего соседа) -расстояние между двумя кластерами определяется расстоянием между двумя наибо­лее близкими объектами (ближайшими соседями) в различных кла­стерах.

Это правило должно, в известном смысле, нанизывать объекты вместе для формирования кластеров, и результирующие кластеры имеют тенденцию быть представленными длинными «цепочками».

Полная связь (метод наиболее удаленных соседей) -расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями"). Этот метод обычно работает очень хорошо, когда объекты происходят на самом деле из реально различных «рощ». Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является «цепочечным», то этот метод непригоден.

Невзвешенное попарное среднее - расстояние вычисляется как среднее между всеми парами объектов в различных кластерах.

Метод эффективен, когда объекты в действительности формируют различные «рощи», однако он работает одинаково хорошо и в случаях протяженных («цепочного» типа) кластеров.

Взвешенное попарное среднее - идентичен предыдущему, но при вычислениях размер соответствующих кластеров (т.е. число объектов, содержащихся в них) используется в качестве весового коэффициента. предлагаемый метод должен быть использован (скорее даже, чем предыдущий), когда предполагаются неравные размеры кластеров.

Метод Варда отличается от всех других методов, поскольку он использует методы дисперсионного анализа для оценки расстояний между кластерами. Метод минимизирует сумму квадратов (SS) для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. В целом метод представляется очень эффективным, однако он стремится создавать кластеры малого размера.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: