Недостатки традиционных информационно-поисковых систем

- недостаточная оперативность;

- зависимость от выбора источников;

- слабые поисковые возможности;

- отсутствие средств уведомления о нахождении новой информации;

- недостаточная защита данных;

- слабо развитые средства обобщения данных.

ОСНОВНЫЕ МОДЕЛИ ПОИСКА

Булева модель поиска

Базируется на теории множеств и математической логике.

Каждый запрос – логическое выражение, связываемое операторами AND, OR, NOT.

Архитектура ИПС, базирующихся на булевой модели.

Пример – организация наборов данных в ИПС STAIRS (IBM).

Состав таблиц ИПС с инвертированными списками:

- текстовая;

- указатели на тексты;

- словарь уникальных слов;

- инверсная, содержащая списки номеров документов, соответствующих определенным словам.

Описание процесса поиска информации в ИПС с инвертированными списками:

- обращение к словарю уникальных слов;

- обращение к инверсной таблице;

- обращение к указателям на тексты;

- обращение к текстовой таблице.

Векторно-пространственная модель поиска

Классическая алгебраическая модель. Документ описывается вектором в некотором евклидовом пространстве. Каждому терму сопоставляется вес, характеризующийся частотой, местоположением, тематикой и т.п.

Запрос – также вектор в евклидовом пространстве. Близость запроса документу – скалярное произведение.

Подход к взвешиванию термов/документов – TF*IDF:

TF – частота появления терма в документе;

IDF – величина, обратная количеству документов массива, которые содержат данный терм.

Векторно-пространственная модель обеспечивает:

- обработку запросов без логических ограничений их длины;

- простоту реализации режима поска подобных документов;

- сохранение результатов поиска с возможностью выполнения уточняющего поиска.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: