Взвешивание термов. В векторной модели документы представлены векторами термов [58]

В векторной модели документы представлены векторами термов [58]. Обычно коллекция документов описывается матрицей терм-документ A, где каждая ячейка содержит информацию о появлении терма в документе: A = [a_ij], где a_ij – вес слова i в документе j. Столбец j матрицы А представляет документ j. Поскольку каждое из слов обычно встречается лишь в небольшом количестве из общего числа документов, матрица A обычно сильно разрежена. Число строк матрицы (m) равно числу выделенных в словарь термов, оно может быть очень велико. Одной из основных проблем категоризации текстов является большое число измерений векторного пространства.

Запросы, или документы для сравнения обрабатываются методами, похожими на методы обработки исходных документов матрицы.

Запрос представляется m-мерным вектором q=[q_i], где q_i равно весу i-го терма запроса.

Вектором оценок называется n-мерный вектор

s=q^TA,

где j-й элемент вектора s определяется выражением

s_j=q^TAe_j,

e_j - j-й единичный вектор, показывающий оценку документа j.

Для данного запроса, документы ранжируются в соответствии с оценками, от больших оценок к меньшим.

Существует несколько подходов к определению веса a_ik терма i для документа j, но большинство из них исходит из двух эмпирических наблюдений, справедливых для текстов:

– чем чаще слово встречается в тексте, тем оно более релевантно по отношению к теме документа;

– чем чаще слово встречается среди всех документов коллекции, тем хуже оно отражает различие между документами.