Назначение и организация инвертированной формы представления документальной информации. Примерная организация поисковых массивов документальной ИПС дескрипторного типа

ПО ЖЕЛАНИЮ для понимания: поиск – это процесс, в ходе которого происходит соотнесение искомого с каждым объектом, хранящимся в массиве. Причем:

1) сравниваются не сами объекты, а описания - так называемые «поисковые образы»;

2) сам процесс является сложным (составным и не одноактным) и обычно реализуется последовательностью операций. Алгоритм поиска включает, по крайней мере (необходимо), следующие операции:

- выборку очередного объекта из массива для выполнения сравнения с запрашиваемым;

- сравнение выбранного объекта с образцом;

- принятие решения на уровне двузначной логики «соответствует» / «не соответствует»;

- переход к выборке следующего объекта или завершение процесса поиска.

Различают два вида поиска информации – поиск целостного объекта и поиск по содержанию. Различие в том, что будет результатом процесса поиска в целом – документ или конкретная информация.

НАДО: технологии (алгоритмы) поиска основываются на двух типах организации массива объектов поиска – прямой и инвертированной.

В случае прямой организации массива документы размещаются в последовательности, не связываемой с порядком какой-либо классификации или алфавита. Поиск по предмету при такой организации для больших массивов будет требовать достаточно много времени, так как для этого надо последовательно выбирать для сравнения с запросом все документы из хранилища.

В инвертированном массиве документы могут быть разбиты на подмножества, которые упорядочены в соответствии с некоторой классификацией и обозначены идентификаторами, отражающими предметное содержание соответствующего класса. При этом так же создается инвертированный справочник, в котором с каждым индексом связан список ссылок на документы, отнесенные к этому классу.

Выгода: При поиске мы ищем уже не во всех документах, а в тех которые указаны в справочнике для класса, к которому отнесен наш запрос. Длина индекса обычно на несколько порядков меньше длины документа, индексы строго упорядочены. В итоге большой выигрыш по времени поиска.

Индексирования имеет ряд недостатков:

1) индексационная информация статична: индексы, приписанные к документу, будут всегда иметь смысл, определенный при создании языка индексирования;

2) нельзя без дополнительных затрат реализовать управление глубиной поиска, а также поиск с использованием критерия «частичного» соответствия.

Запрос обычно представляется как набор атрибутов. Атрибуты могут быть представлены в ключевой или позиционной форме.

Позиционная форма - табличный способ: каждому атрибуту соответствует колонка, каждая ячейка которой содержит значение атрибута.

Ключевая форма – имя атрибута = значение. В документальных системах, в которых поисковые образы представлены набором дескрипторов, атрибут задается предикатом «поисковый образ имеет в составе дескриптор». Сам дескриптор является значением атрибута.

Дескрипторы – это ключевые слова, которые по определенным правилам отобраны из основного словарного состава языка и у которых искусственно устранены синонимия, полисемия и омонимия.



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: