Нормализация

Обычно, после вычисления локальных и глобальных весов, бывает полезно нормализовать столбцы конечной матрицы. Если этого не сделать, короткие документы могут быть не распознаны как релевантные. В

таблице 3 приведены два типа нормализации: не изменяющая (x) и 2-нормальная (n). Возможны и другие стратегии нормализации, но 2-нормальная является

наиболее общей.

Символьное обозначение	Формула для d_i	Краткое описание вида нормализации	Источник
x		Не изменяющее	[57]
n		2-нормальная	[57]

В литературе, посвященной векторной модели, часто упоминается мера косинуса, для вычисления близости между векторами, например векторами документов коллекции и документом запроса. Эта мера вычисляется как:

в результате вычисляется угол между вектором запроса q и вектором документа Ae_j. Если столбцы А и q нормализованы, скалярное произведение равно мере косинуса. Таким образом, выбирая стратегию нормалиации (n), мы используем для оценки эквивалент меры косинуса.

Нормализация запроса q не оказывает влияния на ранжирование документов в векторе оценок, поэтому его зачастую не проводят. Для взвешивания самого запроса использую формулу:

где g_i это глобальный вес терма, вычисленный при помощи стандартных стратегий взвешивания, а это локальный вес, вычисленный при помощи стандартных формул, с частотой f_ij замененной на частоту встречаемости терма в запросе .