- недостаточная оперативность;
- зависимость от выбора источников;
- слабые поисковые возможности;
- отсутствие средств уведомления о нахождении новой информации;
- недостаточная защита данных;
- слабо развитые средства обобщения данных.
ОСНОВНЫЕ МОДЕЛИ ПОИСКА
Булева модель поиска
Базируется на теории множеств и математической логике.
Каждый запрос – логическое выражение, связываемое операторами AND, OR, NOT.
Архитектура ИПС, базирующихся на булевой модели.
Пример – организация наборов данных в ИПС STAIRS (IBM).
Состав таблиц ИПС с инвертированными списками:
- текстовая;
- указатели на тексты;
- словарь уникальных слов;
- инверсная, содержащая списки номеров документов, соответствующих определенным словам.
Описание процесса поиска информации в ИПС с инвертированными списками:
- обращение к словарю уникальных слов;
- обращение к инверсной таблице;
- обращение к указателям на тексты;
- обращение к текстовой таблице.
Векторно-пространственная модель поиска
|
|
Классическая алгебраическая модель. Документ описывается вектором в некотором евклидовом пространстве. Каждому терму сопоставляется вес, характеризующийся частотой, местоположением, тематикой и т.п.
Запрос – также вектор в евклидовом пространстве. Близость запроса документу – скалярное произведение.
Подход к взвешиванию термов/документов – TF*IDF:
TF – частота появления терма в документе;
IDF – величина, обратная количеству документов массива, которые содержат данный терм.
Векторно-пространственная модель обеспечивает:
- обработку запросов без логических ограничений их длины;
- простоту реализации режима поска подобных документов;
- сохранение результатов поиска с возможностью выполнения уточняющего поиска.