Информационно-поисковые каталоги и тезаурусы

Информационно-поисковые каталоги являются традицион­ными технологиями организации информационного поиска в документальных фондах библиотек, архивов и представляют со­бой классификационную систему знаний по определенной пред­метной области. Смысловое содержание документа в информа­ционно-поисковых каталогах отображается тем или иным клас­сом каталога, а индексирование документов заключается в присвоении каждому документу специального кода (индекса) со­ответствующего по содержанию класса (классов) каталога и со­здания на этой основе специального индексного указателя.

Тезаурус представляет собой специальным образом органи­зованную совокупность основных лексических единиц (понятий) предметной области (словарь терминов) и описание парадигма­тических отношений между ними. Парадигматические отноше­ния выражаются семантическими отношениями между элемен­тами словаря, не зависящими от любого контекста. Независи­мость от контекста означает обобщенность (абстрагированность) смысловых отношений, например отношения «род-вид», «пред­мет-целое», «субъект-объект-средство-место-время действия». Так же, как и в информационно-поисковых каталогах, в системах на основе тезаурусов в информационно-поисковое пространство отображается не весь текст документа, а только лишь выражен­ное средствами тезауруса смысловое содержание документа.

Генеральный указатель* (глобальный словарь-индекс) в об­щем виде представляет собой перечисление всех слов (словоформ), имеющихся в документах хранилища, с указанием (отсылками) координатного местонахождения каждого слова (№ докумен­та — № абзаца — № предложения — № слова). Индексирование нового документа в таких системах производится через дополне­ние координатных отсылок тех словоформ генерального указа­теля, которые присутствуют в новом документе. Так как поис­ковое пространство в таких системах отражает полностью весь текст документа (все слова документа), а не только его смысловое содержание, то такие системы получили название полнотекстовых ИПС.**

* Исторически в специальной литературе употреблялся также термин «конкор­данс».

** В специальной литературе такие системы иногда называют системами без лекси­ческого контроля, т. е. без учета возможной синонимичности отдельных групп слово­форм, объединения отдельных групп словоформ в общие смысловые группы, семанти­ческих отношении между словоформами.

Структурная составляющая ИПЯ семантически-навигаци­онных систем реализуется в виде техники смысловых отсылок в текстах документов и специальном навигационном интерфей­се по ним и в настоящее время представлена гипертекстовы­ми технологиями.

Поисковая (манипуляционная) составляющая ИПЯ реали­зуется дескрипторными и семантическими языками запросов.

В дескрипторных языках документы и запросы представ­ляются наборами некоторых лексических единиц (слов, слово­сочетаний, терминов) — дескрипторов, не имеющих между со­бой связей, или, как еще говорят, не имеющих грамматики. Та­ким образом, каждый документ или запрос ассоциируется или, лучше сказать, представлен некоторым набором дескрипторов. Поиск осуществляется через поиск документов с подходящим набором дескрипторов. В качестве элементов-дескрипторов выступают либо элементы словаря ключевых терминов, либо элементы генерального указателя (глобального словаря всех словоформ). В силу отсутствия связей между дескрипторами, набор которых для конкретного документа и конкретного зап­роса выражает, соответственно, поисковый образ документа — ПОД или поисковый образ запроса ПОЗ, такие языки применя­ются, прежде всего, в полнотекстовых системах.

Семантические языки содержат грамматические и семан­тические конструкции для выражения (описания) смыслового содержания документов и запросов. Все многообразие семан­тических языков подразделяется на две большие группы:

• предикатные языки;

• реляционные языки.

В предикатных языках в качестве элементарной осмыс­ленной конструкции высказывания выступает предикат, кото­рый представляет собой многоместное отношение некоторой

совокупности грамматических элементов. Многоместность отношения означает, что каждый элемент предиката играет оп­ределенную роль для группы лексических элементов в целом, но не имеет конкретных отношений с каждым элементом этой группы в отдельности. Аналогом предикатного высказывания в естественном языке выступает предложение, констатирую­щее определенный факт или описывающее определенное со­бытие.

В реляционных языках лексические единицы высказыва­ний могут вступать только в бинарные (друг с другом), но не в совместные, т. е. не многоместные отношения.

В качестве лексических единиц семантических языков выс­тупают функциональные классы естественного языка, важней­шими из которых являются:

• понятия-классы (общее определение совокупности одно­родных элементов реального мира, обладающих некоторым характерным набором свойств, позволяющих одни понятия-классы отделять от других);

• понятия-действия (лексический элемент, выражающий динамику реального мира, содержит универсальный набор при­знаков, включающий субъект действия, объект действия, вре­мя действия, место действия, инструмент действия, цель и т. д.);

• понятия-состояния (лексические элементы, фиксирую­щие состояния объектов);

• имена (лексические элементы, идентифицирующие по­нятия-классы);

• отношения (лексические элементы, служащие для уста­новления связей на множестве понятий и имен);

• квантификаторы (всеобщности, существования и т. д.).

Семантические языки составляют языково-манипуляционную основу информационно-поисковых каталогов, тезаурусов и семантически-навигационных (гипертекстовых) ИПС, опи­сывая своими средствами собственно сами каталоги, тезауру­сы, семантические сети и выражая смысловое содержание до­кументов и запросов


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: