Хеширование (Superimposed hashing)

Хеширование является одним из методов создания файла рабочих карт. Вместо создания файла инвертированных индексов создается файл рабочих карт (Map file), который содержит краткое, фиксированной длины описание каждой записи основного файла.

На основе определенной комбинации коротких последовательностей элементов (букв), из которых состоят записи и термины поискового запроса, создается строка фиксированной длины, состоящая из нулей и единиц.

Хеширование — это термин, используемый для описания математической трансформации последовательности букв в номер, указывающий на определенный бит в строке краткого описания, которому присвоено значение единицы. Те биты, на которые не было указано, в процессе хеширования остаются нулями. Поиск происходит следующим образом: сравнивается краткое описание запроса с кратким описанием каждой записи и выдаются те записи, где единицы присутствуют в той же позиции, в которой находятся единицы краткого описания термина запроса.

Применение этого метода приводит к значительному сокращению процента ложно выданных документов, так что в некоторых системах предусмотрена возможность проведения повторного поиска в массиве выданных документов, но уже с помощью стандартного строчного поискового метода. Поскольку результатом выдачи является небольшой набор документов, то поиск обычно не занимает много времени.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: