Взвешивание термов. В векторной модели документы представлены векторами термов [58]

В векторной модели документы представлены векторами термов [58]. Обычно коллекция документов описывается матрицей терм-документ A, где каждая ячейка содержит информацию о появлении терма в документе: A = [aij], где aij – вес слова i в документе j. Столбец j матрицы А представляет документ j. Поскольку каждое из слов обычно встречается лишь в небольшом количестве из общего числа документов, матрица A обычно сильно разрежена. Число строк матрицы (m) равно числу выделенных в словарь термов, оно может быть очень велико. Одной из основных проблем категоризации текстов является большое число измерений векторного пространства.

Запросы, или документы для сравнения обрабатываются методами, похожими на методы обработки исходных документов матрицы.

Запрос представляется m-мерным вектором q=[qi], где qi равно весу i-го терма запроса.

Вектором оценок называется n-мерный вектор

s=qTA,

где j-й элемент вектора s определяется выражением

sj=qTAej,

ej - j-й единичный вектор, показывающий оценку документа j.

Для данного запроса, документы ранжируются в соответствии с оценками, от больших оценок к меньшим.

Существует несколько подходов к определению веса aik терма i для документа j, но большинство из них исходит из двух эмпирических наблюдений, справедливых для текстов:

– чем чаще слово встречается в тексте, тем оно более релевантно по отношению к теме документа;

– чем чаще слово встречается среди всех документов коллекции, тем хуже оно отражает различие между документами.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: