Локальное взвешивание

В таблице 1 представлены распространенные меры взвешивания локальных термов.

 
 

Символьное обозначение Формула для tij Краткое описание вида взвешивания Источник
b χ (fij) Булево (бинарное) [57]
t fij По частоте слова [57]
c По частоте слова, нормализованное [39,57]
l log(fij+1) Логарифмическое [39]
a χ (fij) · (log(fij)+1)) Альтернативное логарифмическое [35]

Каждая строка в таблице содержит уникальный символ, формулу для представления tij, краткое название, под которым известна данная формула и ссылки на источники, которые описывают данный вид взвешивания.

Булево взвешивание (b) и взвешивание по частоте слова (t) это простые и очевидные оценки локального веса терма. Главный недостаток булева взвешивания состоит в том, что оно присваивает всем встречающимся в документе термам одинаковую релевантность. Однако это может быть полезным в случаях, когда число вхождений терма не имеет значения.

Частотная формула придает большее значение словам, которые встречаются несколько раз, но иногда эта величина неоправданно велика.

 
 

Например, десять раз встречающееся в документе слово, обычно не является в десять раз более важным по сравнению со словом, входящим в документ лишь единожды. Поэтому желательно придать определенную степень важности всем словам, встречающимся в документе, и немного увеличить ее для часто встречающихся слов. Такая попытка делается в нормализованном взвешивании по частоте слова (c). Этот вид веса присваивает значение 0.5 всем входящим в документ термам, и добавляет к нему от 0 до 0.5, в зависимости от частоты встречаемости слова. Более общая формула, параметризованная параметром K, имеет вид:

Предполагается, что величина K имеет меньшее значение (например, 0.3) для больших документов и большее для маленьких (например, 0.5).

Для сглаживания разницы частот применяются логарифмы. Есть две наиболее распространенные меры локальных весов, здесь они названы как логарифмическое взвешивание (l) и альтернативное логарифмическое взвешивание (a).

Сравнение различных стратегий локального взвешивания, для частот слов от 0 до 100 показано на рис.7. Предполагается, что максимальная частота, используемая в схеме (с), равна 100. Вес, основанный просто на частоте встречаемости слова (t) возрастает очень быстро, тогда как другие веса возрастают более медленно.

Замечание: на рисунке плохо видно то обстоятельство, что каждая из формул локального взвешивания принимает значение 0, если терм i не встречается в документе j.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: