Создание запросов

Как показал опыт создания систем, основанных на ЛСА (ЛСИ++), оптимально представление вектора запроса состоящим из двух частей: собственно искомые термы и документы, выбранные по «релевантной обратной связи» (relevance feedback). Как показано в [5, 15, 20, 26], релевантная обратная связь помогает улучшить запрос пользователя, так как термы в выбранных документах добавляются к начальным термам запроса и это помогает запросам получить в результате большую точность. Чтобы указать положение запроса в терм-документном пространстве, вектор запроса представляется в виде псевдо-документа.

Сначала термы запроса представляются как m x 1 вектор q, элементы которого являются нулями или соответствуют частоте валидного терма запроса или ключевого слова в сгенерированной ЛСИ базе данных. Подходящая локальная и глобальная весовые функции для документа применяются для каждого ненулевого элемента (частоты встречаемости терма) в векторе q. Представленный в виде псевдо-документа без релевантной обратной связи, вектор `q есть

`q = qTUkåk-1 , (8)

где qTUk является суммой векторов термов, определенных вектором q, умноженным на åk-1 . Чтобы добавить релевантную обратную связь, вектор d размером n x 1 должен быть составлен из тех ненулевых элементов, что являются индексами, определяющими вектора релевантных документов. Представление вектора запроса `q как псевдо-документа с релевантной обратной связью есть

`q = qTUkåk-1 +dT Vk, (9)

где dT Vk – сумма векторов документов, определяемых d.

Вектор запроса `q далее сравнивается со всеми существующими векторами термов и документов, используя соответствующую меру близости (например, косинусную) и возвращается ранжированный список термов и/или документов. Считается, что наиболее высоко ранжированные термы или документы наиболее близки к исходному запросу.

При `q сравнении с документами используется представление, определенное формулой (13). В процессе вычисления косинуса между вектором запроса `q и каждым вектором документов, вектор запроса должен быть корректно масштабирован (или умножен на åk) если вектор документа был масштабирован в векторном пространстве.

При сравнении вектора запроса с термами, описанное представление для `q более неприменимо, и любые документы, определенные релевантной обратной связью должны быть представлены в пространстве термов. Тогда вектор запроса примет вид

`q = qTUk +dT Vk åk-1 . (10)

При вычислении косинуса между вектором запроса и векторами термов каждый вектор сообразно масштабируется (или умножается на åk).[20]


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: