Типы обратной связи в технологии информационного поиска

ОПР: Обратная связь по релевантности для отдельных терминов позволяет пользователю менять важность терминов в поиске не вникая в тонкости составления запроса.

ИДЕЯ: Это делается с помощью изменения весовых коэффициентов терминов. Варианты их изменения предлагаются системой на основании данных о релевантности выданных ранее документов.

В поиске «по обратной связи» в ИПС IRBIS после каждого шага пользователь может управлять дальнейшим процессом формирования результата, т.е. последовательность шагов в диалоговой модели дискретна и реализуется в зависимости от предпочтений пользователя.

Шаг 1. Построение и ранжирование словника релевантных документов.

W=(wi,i=(l,k)), где k – количество терминов релевантных документов, а wi – значение весового коэффициента для i-го термина, удовлетворяющее неравенству wi≥wi+1. пользователь в данном случае получает оценку всех терминов релевантных документов, которые находятся в частотном словаре, т.е. в ПОТ (поисковой образ темы) попадают все термины без исключения. Затем пользователь самостоятельно отмечает термины, способные улучшить поисковой запрос. Отмеченные термины он может добавить в запрос для поиска по совпадению терминов или по логическому выражению или сделать второй шаг поиска по обратной связи. Шаг 2. Формирование матрицы поисковых результатов. Термины, отобранные пользователем на предыдущем шаге, рассматриваются как исходные для поиска по совпадению терминов. Модель этого механизма поиска реализуется в данном случае построением подматрицы запроса Lq, в которой отдельные строки могут быть нулевыми.

bi11 bi12…bi1n0 ……………... bi21 bi22…bi2n0 ……………… bik1 bik2…bikn0 ………………
Lq =
b – термин.Для каждого ненулевого столбца матрицы построим вектор Qi – результат поиска аналогов с максимальным порогом близости. Полученные векторы рассмотрим как строки матрицы поисковых результатов:

Q Theme=(qij, i=l,n, j=l,n0), где n – количество ненулевых столбцов матрицы.Каждая строка сформированной таким образом матрицы снабжается контекстом – перечислением конкретных терминов, присутствующих в документах конкретного результата. Удалив из матрицы строки с одинаковым контекстом, получим кластеризованное пространство документов, где каждый кластер задаётся не только количеством терминов запроса, но и составом самих терминов. Матрица поисковых результатов Q Theme даёт возможность обеспечить доступ к каждому отдельному результату для его просмотра и последовательного формирования нового множества релевантных документов.


29. Линейная модель механизма поиска по совпадению терминов.

При поиске по условию совпадения терминов в паре запрос-документ задается требование полного и/или частичного совпадения терминов (ключевых слов) для отбора документов, содержащих эти ключевые слова. Условие частичного совпадения можно задать, используя в терминах поискового образа несущественный символ – символ маскирования (обычно это знаки «*», «?» и «%»). Такие символы могут быть в любом месте термина(начало, середина, конец), причём их м.б. фиксированное или переменное число.

Формирование ПОЗа – это выбор из матрицы L0 строк, соответствующих терминам, указанным в запросе. Если некоторый термин не найден в словаре D, ему ставится в соответствие строка из одних нулей. => Для k терминов получаем подматрицу запроса (Lq). Отдельные строки м.б. нулевыми.

По матрице Lq строится результирующий вектор запроса .

Окончательный поисковый результат м.б. сформирован по двум правилам:

1)документ формально релевантен запросу, если содержит все k терминов

2)- // -,если содержит хотя бы часть из k терминов

При реализации (1):

Для (2) надо задать порог m – min требуемое кол-во терминов (m<k).



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: