Кластерный анализ - это общее название множества вычислительных процедур, используемых при создании классификации. Главная цель кластерного анализа - нахождение групп схожих объектов в выборке данных. Эти группы удобно называть кластерами. Не существует общепринятого определения термина «кластер», однако считается, что кластеры обладают некоторыми свойствами, наиболее важными из которых являются плотность, дисперсия, размеры, форма и отделимость.
Плотность - это свойство, которое позволяет определить кластер как скопление точек в пространстве данных, относительно плотное по сравнению с другими областями пространства, содержащими либо мало точек, либо не содержащими их вовсе. Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера, т.е. насколько близко друг к другу расположены точки кластера. Свойство кластера - размеры - тесно связано с дисперсией; если кластер можно идентифицировать, то можно измерить и его «радиус». Это свойство полезно лишь в том случае, если рассматриваемые кластеры являются гиперсферами (т.е. имеют круглую форму) в многомерном пространстве, описываемом признаками. Форма - это расположение точек в пространстве. Если кластеры имеют удлиненную форму, то вместо размера можно вычислить его «связность» - относительную меру расстояния между точками. Отделимость характеризует степень перекрытия кластеров и насколько далеко друг от друга они расположены в пространстве.
Таким образом, кластеры - это непрерывные области некоторого пространства с относительно высокой плотностью точек, отделенные от других таких же областей областями с относительно низкой плотностью точек.
Предостережения:
Применяя процедуры кластерного анализа, всегда следует помнить, что:
1) многие методы кластерного анализа - довольно простые процедуры, которые, как правило, не имеют достаточного статистического обоснования (то есть большинство методов являются эвристическими);
2) методы кластерного анализа разрабатывались для многих дисциплин, а потому несут на себе отпечатки специфики этих дисциплин;
3) разные кластерные методы могут порождать и порождают различные решения для одних и тех же данных;
4) цель кластерного анализа заключается в поиске существующих структур. В то же время его действие состоит в привнесении структуры в анализируемые данные, и эта структура может не совпадать с искомой «реальной».