Поиск с помощью усечения

Большинство систем позволяют пользователю применять усечение терминов для поиска всех терминов или фраз, которые начинаются с одного определенного набора букв. Такая функция обычно задается системе с помощью специального символа усечения. Таким образом, помещая символ усечения после набора букв БИБЛИОТЕ пользователь дает системе команду найти входы инвертированных индексов БИБЛИОТЕКА, БИБЛИОТЕЧНЫЙ, БИБЛИОТЕЧНАЯ АВТОМАТИЗАЦИЯ и др. (Символ усечения различен в разных системах, но обычно это символы?, #. *, и /). В некоторых системах можно найти и другие вариации усечения. Левостороннее усечение не используется всеми системами, но в некоторых случаях оно может оказаться необходимым (например, в химической БД). Чаще встречается функция определения максимальной длины термина или набора букв (например, для выдачи терминов КОМПЬЮТЕР, КОМПЬЮТЕРА, а не КОМПЬЮТЕРИЗАЦИЯ или КОМПЬЮТЕРНЫЙ). Вставной символ неопределенности, иногда называемый internal wildcard character, используется там, где необходима замена символов (например, WOM*N). Некоторые системы поддерживают такой символ неопределенности для замены некоего набора букв в середине слова, например при выражении ПРИВ*ТЬ будут выданы ПРИВЫКАТЬ, ПРИВЫКНУТЬ и любое другое слово, начинающиеся на ПРИ В и заканчивающиеся на ТЬ, например, ПРИВИНТИТЬ.

Использование усечения имеет особое значение для пофразово проиндексированных полей, поскольку это позволяет пользователю получить необходимые записи без необходимости знать фразы целиком. Используя усеченный поиск автора ИВАНОВ, можно найти все записи, содержащие автора с фамилией Иванов, так как не будет необходимости вводить пробелы, знаки пунктуации или инициалы таким образом, как это требуется при пофразовом индексировании, поскольку все они будут следовать за символом усечения.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: