Готовые схемы взвешивания определяются при помощи сочетаний шести символов, обозначающих локальную, глобальную и нормализующую компоненты для матрицы терм-документ, и такие же компоненты для запроса (нормализующая компонента для запроса всегда будет x, но ее оставляют для общности). Например, схема взвешивания axn.afx использует следующие формулы:
Подобная схема взвешивания описана в [28]. Всего, из элементов таблиц 1-3 можно составить 5 × 5 × 2 = 50 возможных схем взвешивания документов и 5 × 5 = 25 возможных схем взвешивания запросов, что составляет 50 × 25 = 1250 возможных стратегий взвешивания. Описывать все эти стратегии не имеет смысла, ограничусь лишь приведением нескольких базовых методов.
TF×IDF взвешивание. Большое распространение получила модель tf×idf взвешивания [58], присваивающая локальный вес i-го терма документа j пропорционально к количеству появлений слова в документе, и в обратной пропорции по отношению к общему числу появлений во всех документах, где терм появляется не менее одного раза:
TFC взвешивание. Предыдущее tf×idf взвешивание не учитывает то обстоятельство, что документы могут иметь различную длину. Взвешивание tfc похоже на tf×idf взвешивание, но дополнительно включает нормализацию длин документов:
ITC взвешивание. Данная схема отличается от предыдущей тем, что использует логарифм частоты встречаемости слова, что позволяет нейтрализовать большие различия по частоте:
Энтропийное взвешивание. Это взвешивание основывается на предпосылках теории информации и является довольно сложной схемой взвешивания. В экспериментальных работах [34,35] показано, что данный подход является наиболее эффективным, по сравнению со всеми вышеописанными. Там же приводятся средние результаты работы на пяти коллекциях документов. В некоторых случаях эффективность энтропийного подхода на 40% превышает соответствующие показатели для простого взвешивания на основе частоты слова. Вес терма i в документе j определяется как:
где
это средняя неопределенность или энтропия слова i. Эта величина равна -1, если слово равномерно распределено среди всех документов, или 0, если слово встречается лишь в одном документе.
OKAPI взвешивание. Данный вид взвешивания, как и следующий за ним, описаны в [64]. Помимо формулы, применяемой для элементов матрицы терм-документ, они отличаются от предыдущих методов наличием взвешивания запроса. Формула взвешивания выглядит следующим образом:
где lj – это длина документа в байтах, но в некоторых работах его принимают равным числу термов документа j [44]. Запрос взвешивается простейшим образом:
.
INQUERY взвешивание. Данный метод определения весов термов является одним из наиболее сложных:
где
Вес запроса определяется все тем же способом простой частоты встречаемости терма:
Помимо этих базовых схем, существуют другие методы взвешивания документов, дополняющие и комбинирующие основные методики. Не существует схемы взвешивания, дающей максимальный эффект для любых задач. Например, существует мнение, что более сложные виды взвешивания могут ухудшать эффективность категоризации документов. В зависимости от конкретной проблемы необходимо применять различные комбинации весов.
В таблице 4 приведены некоторые названия и кодировки схем взвешивания, которые реально применялись в задачах ип, данный список может быть полезен для поиска информации о результатах работы конкретных схем.
Модификации взвешивания модели SMART [28] | Модели взвешивания по C.Buckley, G.Salton [57] | |||||||
txx.txx | Частота появления | bxx.bxx | Бинарные вектора координирующего уровня | |||||
txn.txx | Оригинальное SMART-взвешивание | bxx.bpx | Бинарная независимая вероятность | |||||
axn.afx | SMART "ITC" - взвешивание | bfx.bfx | Классическая IDF без нормализации | |||||
lxn.lfx | Модификация "ITC" - взвешивания | tfn.cfx | Наилучшая полностью взвешенная система | |||||
Другие схемы взвешивания | txn.cfx | Взвешивание с инвертированной частотой | ||||||
cxn.bpx | cxn.lpx | cxn.tpx | cxn.bfx | tfx.tfx | Классическая частота появления плюс IDF | |||
cxn.lfx | cxn.tfx | lxn.bpx | cxn.lpx | cxx.bpx | Наилучшая взвешенная вероятность | |||
lxn.bpx | lxn.bfx | lxn.lfx | lxn.tfx | |||||
Модели взвешивания по S.Dumais [35] | ||||||||
c глобальными весами матрицы терм-документ | без глобальных весов матрицы терм-документ | |||||||
tgn.tgx | Частота появления плюс GFIDF | txn.tgx | ||||||
tfn.tfx | IDF плюс частота появления | txn.tfx | ||||||
ten.tex | Энтропийная плюс частота появления | txn.tex | ||||||
len.lex | Логарифмическая-энтропийная | lxn.lex | ||||||