Коэффициент корреляции Пирсона между двумя объектами пространства (векторами), представленными их соответствующими наборами характеристик (взвешенными частотами терминов) задается выражением [19]:
, (23)
где , – вектора в многомерном пространстве, , – средние значения измерений (частот терминов) соответствующих векторов.
Значение данного коэффициента может колебаться от –1 до 1, что не соответствует первому условию в определении понятия сходства. Поэтому в кластерном анализе документов используют нормализованный коэффициент корреляции Пирсона, принимающий значения от 0 до 1 [5]:
. (24)