Поиск с помощью просмотра индексов

Большинство современных систем позволяют пользователю просматривать части файла инвертированных индексов, организованного в алфавитном порядке. При этом пользователь может видеть слова или фразы, по которым можно проводить поиск, их вариации (присутствующие в неконтролируемых полях) и таким образом найти точную фразу или ее форму для ввода при поиске по пофразово проиндексированному полю. Эта функция помогает сократить количество ложно выданных из-за использования усечения или поиска с помощью пословного индексирования документов.

Многие системы при выдаче алфавитного списка индексов для каждого термина дополнительно указывают количество записей, содержащих искомый термин (postings). Это помогает при формировании стратегии поиска. Некоторые системы позволяют перемещение вверх или вниз по списку, другие требуют от пользователя указать пределы выдаваемого списка (например, от БАБОЧКИ до БУЛОЧКИ), а некоторые выводят лишь ограниченное количество терминов выше и ниже указанного термина.

Поиск по словарной близости

Поиск по словарной близости (proximity searching) является особенно мощной функцией для пословно проиндексированных полей. Поиск по словарной близости позволяет пользователю постко-ординировать фразы из пословно проиндексированных полей, таких как „название" и „реферат". Эта функция становится возможной из-за наличия информации о позициях при каждом из терминов-"входов" в файле инвертированных индексов. Данная информация представляет собой указание на поле и положение данного термина в этом поле. Пользователь, например, может сделать запрос на слово БИБЛИОТЕЧНАЯ, после которого сразу же идет слово АВТОМАТИЗАЦИЯ в пословно или смешанно проиндексированном поле. Система в этом случае использует информацию о позициях для воссоздания фразы, даже если каждое слово представляет собой отдельный инвертированный индекс -"вход". Функции поиска по словарной близости в каждой системе могут быть разными. Некоторые типичные функции включают в себя возможность поиска смежных (рядом стоящих) слов, терминов, разделенных между собой определенным количеством слов (в определенном порядке или без такового), слов в одном предложении, параграфе или поле.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: