Понятно то, что объекты i-ый и j-ый попадали бы в один кластер, когда расстояние (отдаленность) между точками xi и xj было бы достаточно малым, и попадали бы в разные кластеры, когда это расстояние было бы достаточно большим. Таким образом, попадание в один или разные кластеры объектов определяется понятием расстояния между xi и xj из Еd, где Еd – d-мерное евклидово пространство. Неотрицательная функция L(xi,xj) называется функцией расстояния (метрикой), если она отвечает основным аксиомам метрики [25].
Это неотрицательность расстояния:
L(xi, xj) ³ 0. (1)
Симметрия:
L(xi, xj) = 0, (2)
тогда и только тогда, когда xi = xj.
Неразличимость тождественных объектов:
L(xi, xj) = L(xj, xi). (3)
Неравенство треугольника:
L(xi, xj) £ L(xi, xk) + L(xk, xj). (4)
Значение L(xi, xj) для xi и xj называется расстоянием между xi и xj и эквивалентно расстоянию между Gi и Gj соответственно выбранным характеристикам F1, F2, F3,..., Fd.. В многочисленных изданиях посвященных кластерному анализу описано более 50 различных способов вычисления расстояния между объектами [25, 27].
|
|
Большинство расстояний являются расстояниями Минковского (геометрические расстояния в многомерном пространстве), и общая формула для них выглядит, как [5]:
. (5)
Наиболее часто употребляются следующие функции расстояний, представленные в Таблице 1 [25].
Таблица 1 – Некоторые функции расстояния
Название | Формула |
Евклидово расстояние | (6) |
Манхэттэнское (сити-блок, хэмминговское) расстояние | (7) |
Супремум – норма (расстояние Чебышева) | (8) |
Манхэттэнское расстояние, как правило, используется в случае использования дихотомических (имеющих всего два значения) качественных признаков. То есть, например, при бинарном представлении встречаемости терминов.
Пусть n измерений x1, x2,..., xn представлены в виде матрицы данных X размером p ´ n:
. (9)
Тогда расстояние между парами векторов L(xi,xj) могут быть представлены в виде симметричной матрицы расстояний:
. (10)