Идея, лежащая в основе метода, весьма проста [5, 15, 20, 26]. Очевидно, что практически невозможно сформулировать запрос точно с первого раза. Эта проблема может быть решена путем переформулирования запроса с учетом результатов, которые вернула система.
Пользователь может сам указать системе на некоторое количество наиболее релевантных документов, выбрать термы и переформулировать запрос.
Такого рода методы сопряжены с определенными трудностями в сохранении накопленной информации. Кроме того, это может нервировать человека, работающего с системой.
Другим подходом к уточнению запросов может быть автоматическое изменение запроса на основе информации о действиях пользователя (выбирающего наиболее релевантные документы). Такая автоматическая адаптация носит название релевантная обратная связь.
Исследования показали, что в результате добавления механизма релевантной обратной связи повышается эффективность работы на 60-70%.
Этот процесс можно осуществить путем создания термового представления выбранных пользователем релевантных документов и автоматического добавления этих термов в исходный запрос.
Далее происходит увеличение весов тех термов, которые встречаются в релевантных документах и уменьшение весов термов, попадающихся в нерелевантных.
Кроме того, известен метод учета отобранных документов, где начальный запрос заменяется векторной суммой документов, которые пользователь счел наиболее релевантными.
Существует несколько возможностей для такой замены:
Замена запроса первым релевантным документом,
Замена очереди средневзвешенной суммой первых трех (четырех, пяти,...) Релевантных документов
и замена взвешенной суммой всех релевантных документов.
Понятно, что последнее практически не может быть использовано в реальных ситуациях (так как требует большого объема вычислений), однако может служить как эталон лучшей производительности. В среднем же, по отношению к начальной очереди первый вариант дает улучшение производительности в 1,5-2 раза, второй – в 1,5-2,5 раза, а третий - в 1,5-3 раза.
Выводы
Как мы можем заметить из приведенных оценок, в некоторых случаях даже результаты наилучшего метода в своей нижней границе практически не отличаются от самого простого. Это означает, что в данном случае представление, сформированное лси, достаточно хорошо отражает взаимосвязи между термами и документами, но мы не можем сформировать свой запрос так, чтобы он привел к оптимальным результатам.
В некоторых случаях затраты машинного времени по пополнению запроса могут оказаться напрасными. Тем не менее, использовать релевантную обратную связь кажется рациональным, желательно лишь отслеживать такую ситуацию, о которой сказано выше. Это можно сделать, следя за набором возвращаемых документов.
Здесь возникает следующая проблема: для формирования запроса из ранжированного списка релевантных документов, который вернула система, выбирается лишь несколько и происходит новый запрос. Но старые-то релевантные документы, до которых еще не добрался пользователь, никуда не делись, поэтому документы, вернувшиеся в ответ на новый запрос будут помещены вперемешку со старыми.
Как же разобраться? Предлагается разделить списки старых и новых документов, чтобы не получалось путаницы в порядке следования. В результате можем констатировать: да, трудности есть, но они вполне преодолимы, результаты получаются гораздо лучше, поэтому стоит внедрить этот механизм в нашу систему.
13.3.2 Проблема выбора варианта ЛСИ
Мы предлагаем объединить преимущества некоторых из описанных выше методов с целью минимизировать их недостатки. Нужно дополнить классический svd такими методами, которые позволят решить очерченные ниже проблемы. Очертим проблемы svd, на которые стоит обратить пристальное внимание.