Глобальное взвешивание

Глобальные веса термов усиливают различие по степени важности между термами, основываясь на их распределении между всеми документами.

Например, инвертированная документная частота (f) в таблице №2, равна 0, если терм появляется во всех документах коллекции и этот вес увеличивается по мере того, как количество документов, в которых встречается терм, уменьшается. Существуют различные модификации инвертированной документной частоты.

Вероятностная инверсия (p) также является видом инвертированной документной частоты. Эта мера взвешивания присваивает значения от -∞ (для термов которые встречаются во всех документах[1]) до log(n-1) (для термов, которые встречаются лишь в одном документе).

Схема GFIDF (g) вычисляет отношение количества появлений терма в коллекции ni к числу документов, в которых он встречается.

Энтропийное взвешивание (e) задает вес от 0 (для терма, который с одинаковой частотой встречается во всех документах) до 1 (для терма, который встречается лишь в одном документе).

Приведенные в источниках экспериментальные результаты показывают, что глобальные схемы взвешивания сильно увеличивают эффективность ИП.

Использование глобальных схем взвешивания, теоретически, может преодолеть необходимость фильтрации стоп-слов, так как при эффективной стратегии взвешивания, они будут иметь очень малые глобальные веса.

 
 

Символьное обозначение Формула для gj Краткое описание вида взвешивания Источник
x   Не изменяющее [57]
f IDF - инвертированная документная частота [57]
p Вероятностная инверсия [39,57]
g GFIDF [35]
e Энтропийное () [35,39]

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: