Составление схем взвешивания термов

Готовые схемы взвешивания определяются при помощи сочетаний шести символов, обозначающих локальную, глобальную и нормализующую компоненты для матрицы терм-документ, и такие же компоненты для запроса (нормализующая компонента для запроса всегда будет x, но ее оставляют для общности). Например, схема взвешивания axn.afx использует следующие формулы:

Подобная схема взвешивания описана в [28]. Всего, из элементов таблиц 1-3 можно составить 5 × 5 × 2 = 50 возможных схем взвешивания документов и 5 × 5 = 25 возможных схем взвешивания запросов, что составляет 50 × 25 = 1250 возможных стратегий взвешивания. Описывать все эти стратегии не имеет смысла, ограничусь лишь приведением нескольких базовых методов.

TF×IDF взвешивание. Большое распространение получила модель tf×idf взвешивания [58], присваивающая локальный вес i-го терма документа j пропорционально к количеству появлений слова в документе, и в обратной пропорции по отношению к общему числу появлений во всех документах, где терм появляется не менее одного раза:

TFC взвешивание. Предыдущее tf×idf взвешивание не учитывает то обстоятельство, что документы могут иметь различную длину. Взвешивание tfc похоже на tf×idf взвешивание, но дополнительно включает нормализацию длин документов:

ITC взвешивание. Данная схема отличается от предыдущей тем, что использует логарифм частоты встречаемости слова, что позволяет нейтрализовать большие различия по частоте:

Энтропийное взвешивание. Это взвешивание основывается на предпосылках теории информации и является довольно сложной схемой взвешивания. В экспериментальных работах [34,35] показано, что данный подход является наиболее эффективным, по сравнению со всеми вышеописанными. Там же приводятся средние результаты работы на пяти коллекциях документов. В некоторых случаях эффективность энтропийного подхода на 40% превышает соответствующие показатели для простого взвешивания на основе частоты слова. Вес терма i в документе j определяется как:

где

это средняя неопределенность или энтропия слова i. Эта величина равна -1, если слово равномерно распределено среди всех документов, или 0, если слово встречается лишь в одном документе.

OKAPI взвешивание. Данный вид взвешивания, как и следующий за ним, описаны в [64]. Помимо формулы, применяемой для элементов матрицы терм-документ, они отличаются от предыдущих методов наличием взвешивания запроса. Формула взвешивания выглядит следующим образом:

где lj – это длина документа в байтах, но в некоторых работах его принимают равным числу термов документа j [44]. Запрос взвешивается простейшим образом:

.

INQUERY взвешивание. Данный метод определения весов термов является одним из наиболее сложных:

где

Вес запроса определяется все тем же способом простой частоты встречаемости терма:

Помимо этих базовых схем, существуют другие методы взвешивания документов, дополняющие и комбинирующие основные методики. Не существует схемы взвешивания, дающей максимальный эффект для любых задач. Например, существует мнение, что более сложные виды взвешивания могут ухудшать эффективность категоризации документов. В зависимости от конкретной проблемы необходимо применять различные комбинации весов.

В таблице 4 приведены некоторые названия и кодировки схем взвешивания, которые реально применялись в задачах ип, данный список может быть полезен для поиска информации о результатах работы конкретных схем.

 
 

Модификации взвешивания модели SMART [28] Модели взвешивания по C.Buckley, G.Salton [57]
txx.txx Частота появления bxx.bxx Бинарные вектора координирующего уровня
txn.txx Оригинальное SMART-взвешивание bxx.bpx Бинарная независимая вероятность
axn.afx SMART "ITC" - взвешивание bfx.bfx Классическая IDF без нормализации
lxn.lfx Модификация "ITC" - взвешивания tfn.cfx Наилучшая полностью взвешенная система
Другие схемы взвешивания txn.cfx Взвешивание с инвертированной частотой
cxn.bpx cxn.lpx cxn.tpx cxn.bfx tfx.tfx Классическая частота появления плюс IDF
cxn.lfx cxn.tfx lxn.bpx cxn.lpx cxx.bpx Наилучшая взвешенная вероятность
lxn.bpx lxn.bfx lxn.lfx lxn.tfx    
Модели взвешивания по S.Dumais [35]
c глобальными весами матрицы терм-документ без глобальных весов матрицы терм-документ
tgn.tgx Частота появления плюс GFIDF txn.tgx
tfn.tfx IDF плюс частота появления txn.tfx
ten.tex Энтропийная плюс частота появления txn.tex
len.lex Логарифмическая-энтропийная lxn.lex
                 

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: