В таблице 1 представлены распространенные меры взвешивания локальных термов.
Символьное обозначение | Формула для tij | Краткое описание вида взвешивания | Источник |
b | χ (fij) | Булево (бинарное) | [57] |
t | fij | По частоте слова | [57] |
c | По частоте слова, нормализованное | [39,57] | |
l | log(fij+1) | Логарифмическое | [39] |
a | χ (fij) · (log(fij)+1)) | Альтернативное логарифмическое | [35] |
Каждая строка в таблице содержит уникальный символ, формулу для представления tij, краткое название, под которым известна данная формула и ссылки на источники, которые описывают данный вид взвешивания.
Булево взвешивание (b) и взвешивание по частоте слова (t) это простые и очевидные оценки локального веса терма. Главный недостаток булева взвешивания состоит в том, что оно присваивает всем встречающимся в документе термам одинаковую релевантность. Однако это может быть полезным в случаях, когда число вхождений терма не имеет значения.
Частотная формула придает большее значение словам, которые встречаются несколько раз, но иногда эта величина неоправданно велика.
|
|
Например, десять раз встречающееся в документе слово, обычно не является в десять раз более важным по сравнению со словом, входящим в документ лишь единожды. Поэтому желательно придать определенную степень важности всем словам, встречающимся в документе, и немного увеличить ее для часто встречающихся слов. Такая попытка делается в нормализованном взвешивании по частоте слова (c). Этот вид веса присваивает значение 0.5 всем входящим в документ термам, и добавляет к нему от 0 до 0.5, в зависимости от частоты встречаемости слова. Более общая формула, параметризованная параметром K, имеет вид:
Предполагается, что величина K имеет меньшее значение (например, 0.3) для больших документов и большее для маленьких (например, 0.5).
Для сглаживания разницы частот применяются логарифмы. Есть две наиболее распространенные меры локальных весов, здесь они названы как логарифмическое взвешивание (l) и альтернативное логарифмическое взвешивание (a).
Сравнение различных стратегий локального взвешивания, для частот слов от 0 до 100 показано на рис.7. Предполагается, что максимальная частота, используемая в схеме (с), равна 100. Вес, основанный просто на частоте встречаемости слова (t) возрастает очень быстро, тогда как другие веса возрастают более медленно.
Замечание: на рисунке плохо видно то обстоятельство, что каждая из формул локального взвешивания принимает значение 0, если терм i не встречается в документе j.