Постановка задачи кластерного анализа

Кластерный анализ - это совокупность методов классификации многомерных наблюдений или объектов, основанных на определении понятия расстояния между объектами с последующим выделением из них групп наблюдений (кластеров, таксонов).

Выбор конкретного метода кластерного анализа зависит от цели классификации.

Обычной формой представления исходных данных в задачах кластерного анализа служит матрица:

каждая строка которой, представляет результат измерений k, рассматриваемых признаков на одном из обследованных объектов.

Наиболее трудным считается определение однородности объектов, которые задаются введением расстояния между объектами хi и хj (p(xi, xj)).

Объекты будут однородными в случае p(xi, xj)£ pпор,

где pпор- заданное пороговое значение.

Выбор расстояния (р) является основным моментом исследования, от которого зависят окончательные варианты разбиения. Наиболее распространенными считаются принципы “ближайшего соседа” или “дальнего соседа”. В первом случае за расстояние между кластерами принимают расстояние между ближайшими элементами этих кластеров, а во втором - между наиболее удаленными друг от друга.

В задачах кластерного анализа часто используют Евклидово и Хемингово расстояния.

Евклидово расстояние определяется по формуле:

;

сравнивается близость двух объектов по большому числу признаков.

Хемингово расстояние:

;

используется как мера различия объектов, задаваемых атрибутивными признаками.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: