Нормализация

Обычно, после вычисления локальных и глобальных весов, бывает полезно нормализовать столбцы конечной матрицы. Если этого не сделать, короткие документы могут быть не распознаны как релевантные. В

таблице 3 приведены два типа нормализации: не изменяющая (x) и 2-нормальная (n). Возможны и другие стратегии нормализации, но 2-нормальная является

 
 

наиболее общей.

Символьное обозначение Формула для di Краткое описание вида нормализации Источник
x   Не изменяющее [57]
n 2-нормальная [57]

В литературе, посвященной векторной модели, часто упоминается мера косинуса, для вычисления близости между векторами, например векторами документов коллекции и документом запроса. Эта мера вычисляется как:

в результате вычисляется угол между вектором запроса q и вектором документа Aej. Если столбцы А и q нормализованы, скалярное произведение равно мере косинуса. Таким образом, выбирая стратегию нормалиации (n), мы используем для оценки эквивалент меры косинуса.

Нормализация запроса q не оказывает влияния на ранжирование документов в векторе оценок, поэтому его зачастую не проводят. Для взвешивания самого запроса использую формулу:

,

где gi это глобальный вес терма, вычисленный при помощи стандартных стратегий взвешивания, а это локальный вес, вычисленный при помощи стандартных формул, с частотой fij замененной на частоту встречаемости терма в запросе .


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: