Как показал опыт создания систем, основанных на ЛСА (ЛСИ++), оптимально представление вектора запроса состоящим из двух частей: собственно искомые термы и документы, выбранные по «релевантной обратной связи» (relevance feedback). Как показано в [5, 15, 20, 26], релевантная обратная связь помогает улучшить запрос пользователя, так как термы в выбранных документах добавляются к начальным термам запроса и это помогает запросам получить в результате большую точность. Чтобы указать положение запроса в терм-документном пространстве, вектор запроса представляется в виде псевдо-документа.
Сначала термы запроса представляются как m x 1 вектор q, элементы которого являются нулями или соответствуют частоте валидного терма запроса или ключевого слова в сгенерированной ЛСИ базе данных. Подходящая локальная и глобальная весовые функции для документа применяются для каждого ненулевого элемента (частоты встречаемости терма) в векторе q. Представленный в виде псевдо-документа без релевантной обратной связи, вектор `q есть
|
|
`q = qTUkåk-1 , (8)
где qTUk является суммой векторов термов, определенных вектором q, умноженным на åk-1 . Чтобы добавить релевантную обратную связь, вектор d размером n x 1 должен быть составлен из тех ненулевых элементов, что являются индексами, определяющими вектора релевантных документов. Представление вектора запроса `q как псевдо-документа с релевантной обратной связью есть
`q = qTUkåk-1 +dT Vk, (9)
где dT Vk – сумма векторов документов, определяемых d.
Вектор запроса `q далее сравнивается со всеми существующими векторами термов и документов, используя соответствующую меру близости (например, косинусную) и возвращается ранжированный список термов и/или документов. Считается, что наиболее высоко ранжированные термы или документы наиболее близки к исходному запросу.
При `q сравнении с документами используется представление, определенное формулой (13). В процессе вычисления косинуса между вектором запроса `q и каждым вектором документов, вектор запроса должен быть корректно масштабирован (или умножен на åk) если вектор документа был масштабирован в векторном пространстве.
При сравнении вектора запроса с термами, описанное представление для `q более неприменимо, и любые документы, определенные релевантной обратной связью должны быть представлены в пространстве термов. Тогда вектор запроса примет вид
`q = qTUk +dT Vk åk-1 . (10)
При вычислении косинуса между вектором запроса и векторами термов каждый вектор сообразно масштабируется (или умножается на åk).[20]