Иерархические методы кластерного анализа

1.1. Иерархические агломеративные (объединяющие) методы – это методы, которые последовательно объединяют объекты в кластеры. На первом шаге каждый объект выборки рассматривается как отдельный кластер; далее на основании матрицы сходства объединяются самые близкие друг к другу объекты. Подобным образом каждый объект либо группируется с другим объектом либо включается в состав существующего кластера. Процесс кластеризации конечен и продолжается до тех пор, пока все объекты не будут объединены в один кластер. Разумеется, подобный результат в общем случае не имеет смысла, и исследователь самостоятельно определяет, в какой момент кластеризация должна быть прекращена.

1.2. Иерархические дивизимные (разъединяющие) методы – это методы, которые последовательно расчленяют группы на отдельные объекты. Основной исходной посылкой методов является то, что первоначально все объекты принадлежат одному кластеру. В процессе кластеризации по определенным правилам от этого кластера отделяются группы схожих между собой объектов. Таким образом, на каждом этапе количество кластеров возрастает.

Следует заметить, что как агломеративные, так и дивизимные методы могут быть реализованы при помощи различных алгоритмов.

2. Итеративные методы - сущность методов заключается в том, что процесс классификации начинается с определения начальных условий кластеризации (количества образуемых кластеров, координат центров начальных кластеров и пр.). Изменение начальных условий существенно меняет и результаты кластеризации, поэтому применение этих методов требует предварительного изучения генеральной совокупности, в частности, с помощью иерархических методов кластерного анализа. Чаще всего итеративные методы применяют после иерархических. Итеративные методы могут привести к образованию пересекающихся кластеров, когда один объект принадлежит одновременно нескольким кластерам.

К итеративным методам относятся: метод к -средних, метод поиска сгущений и др.

При выборе методов кластерного анализа руководствуются прошлым опытом, имеющейся информацией о генеральной совокупности, исходными данными. Необходимо отметить, что на начальном этапе, чаще всего, выбирается сразу несколько методов кластерного анализа, которые приводят к различным результатам кластеризации. Полученные классификации объектов анализируются с помощью критериев качества, которые позволяют выбрать наиболее качественную классификацию.

Для больших совокупностей все методы кластерного анализа являются очень трудоемкими, поэтому на современном этапе их применение реализуется с помощью программных продуктов, в частности программы SPSS.

Достаточно подробный обзор и систематизация различных методов кластерного анализа приводится в работе [9].

Основой иерархических методов кластерного анализа является определение меры сходства объектов по наблюдаемым переменным. Для количественной оценки сходства в кластерном анализе вводится понятие метрики. Сходство или различие между объектами устанавливается в зависимости от метрического расстояния между объектами. Существуют различные меры сходства между объектами, среди них наиболее популярными являются следующие:

· евклидово расстояние между объектами:

, (4.1)

· взвешенное евклидово расстояние:

, (4.2)

- расстояние между i и j объектами,

- значение к -й переменной у i -го объекта,

- значение к- й переменной у j -го объекта,

wk - вес, приписываемый к- й переменной.

Если объекты описываются неметрическими переменными, тогда в качестве мер сходства могут быть использованы коэффициенты ранговой корреляции (например, парные коэффициенты корреляции Пирсона), коэффициенты ассоциативности и другие меры сходства.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: