Глобальные веса термов усиливают различие по степени важности между термами, основываясь на их распределении между всеми документами.
Например, инвертированная документная частота (f) в таблице №2, равна 0, если терм появляется во всех документах коллекции и этот вес увеличивается по мере того, как количество документов, в которых встречается терм, уменьшается. Существуют различные модификации инвертированной документной частоты.
Вероятностная инверсия (p) также является видом инвертированной документной частоты. Эта мера взвешивания присваивает значения от -∞ (для термов которые встречаются во всех документах[1]) до log(n-1) (для термов, которые встречаются лишь в одном документе).
Схема GFIDF (g) вычисляет отношение количества появлений терма в коллекции ni к числу документов, в которых он встречается.
Энтропийное взвешивание (e) задает вес от 0 (для терма, который с одинаковой частотой встречается во всех документах) до 1 (для терма, который встречается лишь в одном документе).
Приведенные в источниках экспериментальные результаты показывают, что глобальные схемы взвешивания сильно увеличивают эффективность ИП.
Использование глобальных схем взвешивания, теоретически, может преодолеть необходимость фильтрации стоп-слов, так как при эффективной стратегии взвешивания, они будут иметь очень малые глобальные веса.
Символьное обозначение | Формула для gj | Краткое описание вида взвешивания | Источник |
x | Не изменяющее | [57] | |
f | IDF - инвертированная документная частота | [57] | |
p | Вероятностная инверсия | [39,57] | |
g | GFIDF | [35] | |
e | Энтропийное () | [35,39] |