Сравнительный анализ существующих методик взвешивания термов

Пусть fij – частота встречаемости терма i в документе j, N – количество документов в коллекции, M – число термов в коллекции, после удаления стоп-слов и выделения словарных основ, ni – общее количество появлений терма i во всей коллекции. Используя эти величины при создании векторов документов x1, x2,..., xN, значение j-й компоненты вектора xi, при 1 ≤ i ≤ N, определяется выражением:

где tji – локальный вес терма, основанный лишь на величине fik, gj – глобальный вес терма, основанный на величине ni, di – нормализующая компонента вектора xi. Существует несколько базовых схем взвешивания. В таблицах 1-3 представлены используемые в задачах ИП методы взвешивания, для каждой из трех составляющих tji, gj, di вектора xi [44]. Основания логарифмов равны 2, χ определяет сигнум-функцию вида:


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: