Мера косинуса

Мера косинуса учитывает направление вектора в пространстве и не учитывает расстояния между векторами. В приближении к нашей задаче важно, что направление вектора в семантическом пространстве можно интерпретировать как качественное сходство содержания двух документов. Косинус дает представление о специализированности данного документа, то есть направленности в рамках одной предметной области, тематики, и, таким образом, может выявить различие между двумя документами точнее, чем расстояние.

Кроме того, мера косинуса лучше отражает относительную важность терминов в документах и, фактически, учитывает, какой из них сильнее отражает семантику документа, а какой слабее. Все это делает наиболее популярной меру косинуса в задачах информационного поиска.

Итак, если предположить, что X и Y – вектора в n-мерном пространстве [4]:

, (16)

. (17)

Их скалярное произведение будет равно:

. (18)

Длина вектора X при этом равна:

. (19)

И, если q – угол между векторами X и Y, то его косинус равен:

. (20)

Если измерения, атрибуты векторов объектов могут быть отрицательными, то косинус может принимать значения от –1 до 1, а не от 0 до 1 в обратном случае. В нашей задаче анализируемые объекты представлены в пространстве, полученном с помощью техник вроде SVD, а значит могут иметь отрицательные значения по координатам. Таким образом, если требуется соблюдение первого условия для меры сходства (значения от 0 до 1), то проводится дополнительная нормализация меры косинуса:

. (21)

Мера косинуса мало зависит от расстояния между векторами, в то время как евклидова метрика на нем основана и, наоборот, почти не зависит от направления векторов в пространстве. Часто, для устранения влияния длин векторов на меру косинуса используется нормализация векторов, которые приводятся к единичной длине, в частности, применяется норма L2 [12]. Все это относится к начальному взвешиванию векторов и может резко повысить эффективность вычислений, поскольку косинус нормализованных единичных векторов равен их скалярному произведению, для расчета которого необходимо меньше элементарных операций [12,15]. Правда, необходимо учитывать тот факт, что длина вектора документа несет информацию о количестве общих знаний по данной предметной области, содержащихся в документе. Таким образом, длина вектора документа дает представление об относительной важности, ценности данного документа во всей коллекции [4].


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: