Понятие кластерного анализа

Кластерный анализ - это общее название множества вычислительных процедур, используемых при создании классификации. Главная цель кластерного анализа - нахождение групп схожих объектов в выборке данных. Эти группы удобно называть кластерами. Не существует общепринятого определения термина «кластер», однако считается, что кластеры обладают некоторыми свойствами, наиболее важными из которых являются плотность, дисперсия, размеры, форма и отделимость.

Плотность - это свойство, которое позволяет определить кластер как скопление точек в пространстве данных, относительно плотное по сравнению с другими областями пространства, содержащими либо мало точек, либо не содержащими их вовсе. Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера, т.е. насколько близко друг к другу расположены точки кластера. Свойство кластера - размеры - тесно связано с дисперсией; если кластер можно идентифицировать, то можно измерить и его «радиус». Это свойство полезно лишь в том случае, если рассматриваемые кластеры являются гиперсферами (т.е. имеют круглую форму) в многомерном пространстве, описываемом признаками. Форма - это расположение точек в пространстве. Если кластеры имеют удлиненную форму, то вместо размера можно вычислить его «связность» - относительную меру расстояния между точками. Отделимость характеризует степень перекрытия кластеров и насколько далеко друг от друга они расположены в пространстве.

Таким образом, кластеры - это непрерывные области некоторого пространства с относительно высокой плотностью точек, отделенные от других таких же областей областями с относительно низкой плотностью точек.

Предостережения:

Применяя процедуры кластерного анализа, всегда следует помнить, что:

1) многие методы кластерного анализа - довольно простые процедуры, которые, как правило, не имеют достаточного статистического обоснования (то есть большинство методов являются эвристическими);

2) методы кластерного анализа разрабатывались для многих дисциплин, а потому несут на себе отпечатки специфики этих дисциплин;

3) разные кластерные методы могут порождать и порождают различные решения для одних и тех же данных;

4) цель кластерного анализа заключается в поиске существующих структур. В то же время его действие состоит в привнесении структуры в анализируемые данные, и эта структура может не совпадать с искомой «реальной».


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: