Для определения слов-терминов, адекватных для маркирования кластера документов используется произведение:
. (51)
Первая часть этой формулы представляет собой локальную частоту встречаемости данного термина в данном кластере, вторая часть – отношение той локальной частоты к частоте встречаемости данного термина во всем наборе документов.
Термины, получившие в пределах данного кластера наибольшее значение по этой формуле, считаются наиболее подходящими для маркирования данного кластера.