Понятие сходства в кластерном анализе

Понятием, противоположным расстоянию, является понятие сходства между объектами Gi и Gj. Неотрицательная вещественная функция S(xi,xj) = Sij называется мерой сходства, если [25]:

- 0£ S(xi, xj)<1 для xi ¹ xj;

- S(xi, xi) = 1;

- S(xi, xj) = S(xj, xi);

Надо сказать, что первые два условия могут и не выполняться. Важно, что мера сходства по смыслу противоположна расстоянию. Чем больше эта величина, тем более близки объекты.

Пары значений мер сходства можно объединить в матрицу сходства:

. (11)

Величину Sij называют коэффициентом сходства или сходством. Естественной мерой сходства характеристик объектов во многих задачах является коэффициент корреляции между ними.

Для перехода от евклидовых расстояний к сходству, можно использовать формулы [5]:

(12)

или

. (13)

Однако, как показывает практика, всегда весьма проблематично получить формулу сходства, основанную на расстоянии. Часто, в зависимости от характера пространства, в котором задаются объекты, желаемой точности измерения и требований к производительности подбирается формула сходства, созданная на основе какой-либо из метрик. Например, получают значения сходства, основанные на Евклидовом расстоянии [6]:

. (14)

Манхэттэнском расстоянии:

. (15)

В частности, пересчитав для матрицы расстояний значения по этой формуле, мы получим значения сходства, основанные на каком-то частном случае метрики Минковского.

Вообще, как правило, в кластерном анализе, используется именно понятие сходства, прямо пропорциональное по смыслу понятию близости. Часто, когда говорят о степени близости двух объектов, то имеют в виду насколько объекты сходны между собой. Именно поэтому, эти понятия часто встречаются как синонимы, а различные метрики используются лишь как функции, обратные сходству, при его вычислении.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: