Обычно, после вычисления локальных и глобальных весов, бывает полезно нормализовать столбцы конечной матрицы. Если этого не сделать, короткие документы могут быть не распознаны как релевантные. В
таблице 3 приведены два типа нормализации: не изменяющая (x) и 2-нормальная (n). Возможны и другие стратегии нормализации, но 2-нормальная является
наиболее общей.
Символьное обозначение | Формула для di | Краткое описание вида нормализации | Источник |
x | Не изменяющее | [57] | |
n | 2-нормальная | [57] |
В литературе, посвященной векторной модели, часто упоминается мера косинуса, для вычисления близости между векторами, например векторами документов коллекции и документом запроса. Эта мера вычисляется как:
в результате вычисляется угол между вектором запроса q и вектором документа Aej. Если столбцы А и q нормализованы, скалярное произведение равно мере косинуса. Таким образом, выбирая стратегию нормалиации (n), мы используем для оценки эквивалент меры косинуса.
Нормализация запроса q не оказывает влияния на ранжирование документов в векторе оценок, поэтому его зачастую не проводят. Для взвешивания самого запроса использую формулу:
,
где gi это глобальный вес терма, вычисленный при помощи стандартных стратегий взвешивания, а это локальный вес, вычисленный при помощи стандартных формул, с частотой fij замененной на частоту встречаемости терма в запросе .