Модели поиска

Совокупность признаков, на основании которых определяется релевантность документов по отношению к информационному запросу и принимается решение о выдаче или невыдаче данного документа в ответ на поставленный информационный запрос, как уже говорилось, называется критерием выдачи или критерием смыслового соответствия (КСС).

Критерии в совокупности с методами их реализации называют моделями поиска. Здесь под моделью будем понимать логическую или математическую модель, в рамках и терминах которой и формулируется КСС. Принятая модель поиска определяет многие компоненты ИПС и их взаимодействие, в первую очередь, индексирование документов и запросов и тем самым структуру ПОД и ПОЗ, собственно критерий и тем самым результаты поиска. Поисковые образы являются результатом применения некоторой модели информационного массива документов, ориентированной на поиск, к реальному массиву. Алгоритмы сравнения ПОД и ПОЗ реализуют правила вычисления релевантности документа и запроса в соответствии с выбранной моделью. В идеале модели поиска должны включать в себя также и модель пользователя: формализованное описание и обработку при поиске пользователя, типа запроса, целей поиска и т.д.

Модели поиска информации можно охарактеризовать четырьмя параметрами:

представлением документов и запросов;

методами сопоставления, применяемыми для оценки релевантности документа запросу пользователя;

методами ранжирования результатов запроса;

механизмами обратной связи, обеспечивающими оценку релевантности пользователем.

Можно утверждать, что главными здесь являются методы сопоставления оценки релевантности ПОД и ПОЗ, которые определяют остальные параметры.

Существует несколько типов моделей поиска информации: теоретико-множественные, логические, векторные (алгебраические), вероятностные и гибридные.

Теоретико-множественные модели являются самыми простыми и основываются на количественном КСС, в частности, на теоретико-множественной операции пересечения множеств терминов ПОД и ПОЗ. Степень такого пересечения выражает степень релевантности документов и запросов.

Наиболее популярной моделью является булева, или логическая, модель, которая трактует термины в запросе как булевы переменные. При наличии термина в документе соответствующая переменная принимает значение «true» (истина). Присваивание терминам весовых коэффициентов не допускается. Запросы формулируются как произвольные булевы выражения, связывающие термины с помощью стандартных логических операций: AND, OR или NOT. Мерой соответствия запроса документу служит значение статуса выборки (RSV, retrieval status value). В булевой модели статус выборки равен либо 1, если для данного документа вычисление выражения запроса дает значение «истина», либо 0 в противном случае. Все документы с RSV = 1 считаются релевантными запросу.

Такая модель проста в реализации и применяется во многих системах. Она позволяет пользователям вводить в свои запросы произвольно сложные выражения, однако эффективность поиска зависит от умения и опыта пользователя и обычно невысока. К тому же ранжировать результаты невозможно, так как все найденные документы имеют одинаковые RSV, а терминам нельзя присвоить весовые коэффициенты. Нередко результаты выглядят не очень естественно. Например, если пользователь указал в запросе десять терминов, связанных логической операцией AND, документ, содержащий девять таких терминов, в выборку не попадет. Для повышения эффективности поиска в таких ИПС рекомендуется применять обратную связь с пользователем. Неадекватность собственно логического критерия смыслового соответствия была показана давно. Однако на практике до сих пор превалируют системы с булевой логикой.

Модель, основанная на нечеткой логике (или нечетких множествах),допускает (в отличие от обычной логики и теории множеств) частичную принадлежность элемента тому или иному множеству. Здесь логические операции переопределены таким образом, чтобы учесть возможность неполной принадлежности множеству, и это роднит ее с вероятностными моделями, а обработка запросов пользователя выполняется аналогично булевой модели, но результат вычисления истинности логических операций принимает значения в диапазоне [0,1].

Строгая булева модель и модель, использующая методы теории нечетких множеств, требуют меньших объемов вычислений (при индексировании и оценке соответствия документов запросу), чем другие модели. Они менее сложны алгоритмически и предъявляют не очень жесткие требования к другим ресурсам, таким как дисковое пространство для хранения представлений документов.

Векторная модель (другие названия – пространственно-векторная, алгебраическая, линейная) основана на предположении, что совокупность документов можно представить набором векторов в пространстве, определяемом базисом, из n нормализованных векторов-терминов. Если быть более точным, то документу приписывается вектор размерности, равный числу терминов, которыми можно воспользоваться при индексировании (поиске). В пространстве, натянутом на n нормализованных векторов, каждый документ будет представлен n -мерным вектором. При простой векторной модели элемент вектора равен 1 или 0, в зависимости от наличия или отсутствия термина в ПОД. В более сложных моделях термины взвешиваются – элемент вектора равен не 1 или 0, а некоторому числу (весу), отражающему вес термина в документе. Запрос пользователя также представляется n -мерным вектором. Показатель RSV, определяющий соответствие документа запросу, задается скалярным произведением векторов запроса и документа. Чем больше RSV, тем выше релевантность документа запросу.

Достоинство подобной модели в ее эффективности и простоте. Она позволяет взвешивать термины, ранжировать результаты поиска по релевантности, реализовать обратную связь для оценки релевантности пользователем. В то же время приходится жертвовать выразительностью спецификации запроса, присущей булевой модели. Именно последняя модель в различных модификациях стала наиболее популярной в ИПС сети Интернет.

Наиболее сложной и перспективной считается вероятностная модель. Данная модель базируется на вероятности релевантности и нерелевантности документа запросу пользователя, которые вычисляются на основе вероятностных весовых коэффициентов терминов и фактического присутствия терминов в документе. Кроме того, в этой модели применяются два стоимостных параметра. Они характеризуют соответственно потери, связанные с включением в результат нерелевантного документа, и пропуском релевантного документа. Данная модель требует определения вероятностей вхождения термина в релевантные и нерелевантные части совокупности документов, оценить которые довольно сложно. Между тем она выполняет важную функцию, объясняя процесс поиска и предлагая теоретическое обоснование методов, применявшихся ранее эмпирически. Теоретические подходы были сформулированы давно, но практического применения не нашли в силу своей сложности.

Существуют разные вероятностные модели документального поиска. В одних критерии, влияющие на оценку релевантности, являются свойствами потребителя (запроса). Поэтому история, статистика предыдущих поисков здесь оказывается чрезвычайно полезной.

Другой тип вероятностных моделей интерпретирует поисковую ситуацию следующим образом. Имеется массив документов, обладающих различными свойствами: семантическим значением (здесь мы имеем в виду значение в информационно-поисковом понимании: как предметное содержание), лингвистическими характеристиками (лексических единиц), библиографическими характеристиками и т.п. Запрос пользователя выражает информационную потребность в терминах этих свойств. Формальное обнаружение этих поисковых признаков говорит не о релевантности документа и запроса, а только о вероятности, что документ может быть оценен «хозяином» запроса как релевантный.

На практике в реальных информационно-поисковых системах часто применяются гибридные модели, которые совмещают в себе свойства и функции нескольких моделей.

16 17 18 19 20 21 22

Подборка статей по вашей теме: