Прогнозный метод

Для определения слов-терминов, адекватных для маркирования кластера документов используется произведение:

. (51)

Первая часть этой формулы представляет собой локальную частоту встречаемости данного термина в данном кластере, вторая часть – отношение той локальной частоты к частоте встречаемости данного термина во всем наборе документов.

Термины, получившие в пределах данного кластера наибольшее значение по этой формуле, считаются наиболее подходящими для маркирования данного кластера.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: