Понятием, противоположным расстоянию, является понятие сходства между объектами Gi и Gj. Неотрицательная вещественная функция S(xi,xj) = Sij называется мерой сходства, если [25]:
- 0£ S(xi, xj)<1 для xi ¹ xj;
- S(xi, xi) = 1;
- S(xi, xj) = S(xj, xi);
Надо сказать, что первые два условия могут и не выполняться. Важно, что мера сходства по смыслу противоположна расстоянию. Чем больше эта величина, тем более близки объекты.
Пары значений мер сходства можно объединить в матрицу сходства:
. (11)
Величину Sij называют коэффициентом сходства или сходством. Естественной мерой сходства характеристик объектов во многих задачах является коэффициент корреляции между ними.
Для перехода от евклидовых расстояний к сходству, можно использовать формулы [5]:
(12)
или
. (13)
Однако, как показывает практика, всегда весьма проблематично получить формулу сходства, основанную на расстоянии. Часто, в зависимости от характера пространства, в котором задаются объекты, желаемой точности измерения и требований к производительности подбирается формула сходства, созданная на основе какой-либо из метрик. Например, получают значения сходства, основанные на Евклидовом расстоянии [6]:
|
|
. (14)
Манхэттэнском расстоянии:
. (15)
В частности, пересчитав для матрицы расстояний значения по этой формуле, мы получим значения сходства, основанные на каком-то частном случае метрики Минковского.
Вообще, как правило, в кластерном анализе, используется именно понятие сходства, прямо пропорциональное по смыслу понятию близости. Часто, когда говорят о степени близости двух объектов, то имеют в виду насколько объекты сходны между собой. Именно поэтому, эти понятия часто встречаются как синонимы, а различные метрики используются лишь как функции, обратные сходству, при его вычислении.