Нечеткие множества

При обычном процессе присвоения записи определенных дескрипторов индексатор решает, насколько термин подходит к данному документу. В реальности, однако, дескрипторы служат описанием документа с большим или меньшим успехом. С помощью метода нечетких множеств можно определить степень соответствия определенного термина документу. Это происходит благодаря присвоению каждому термину определенного „веса" - значения, лежащего на отрезке от нуля до единицы. Процесс поиска при использовании метода нечетких множеств подобен обычному булеву, но при этом может быть упорядочена выдача и интерактивно указано стоп-значение. Для иллюстрации метода нечетких множеств представим себе, что в отдельном документе содержится термин А, которому присвоено значение-вес 0.7, и термин В со значением 0.3. При выдаче по выражению A AND В уступка будет сделана весу 0.3 (минимальному из двух), а при выдаче по выражению А OR В - весу 0.7 (максимальному из двух). Пользователь также может указать, что выдаче подлежат только документы с весом терминов больше определенного.

Кластерные файлы и критерии оценки сходства

Основой для проведения поиска может служить и вычисление коэффициента сходства для каждой пары записей в файле. Этот подход был опробован Джералдом Салтоном и его коллегами на системе SMART. При таком подходе записи группируются или кластеризуются по критерию сходства друг с другом, что вычисляется на основе информации о появлении терминов в документах.

Запросы формулируются на естественном языке и обрабатываются тем же способом, что и записи в БД. Выдаются те записи, которые наиболее сходны с поисковым запросом. Этот подход может использоваться и в том случае, если запросом является какая-либо известная запись. На основе появления терминов в записях система подберет те из них, которые являются наиболее сходными с данной. Описанная поисковая функция, сформулированная в виде „найти документ, подобный данному", включена в пакет Personal Librarian.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: