Определение и основные понятия ИПЯ.
Информационно-поисковый язык.
Поисковое пространство, отображающее поисковые образы документов (ПОД) и реализующее механизмы информационного поиска документов, строится на основе языков документальных баз данных. Эти языки называются информационно-поисковыми языками (ИПЯ) (Слайд 8).
Информационно-поисковый язык - формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска.
Информационно-поисковый язык является семантической системой, обеспечивающей передачу (запись) содержания документа в объеме, необходимом для целей поиска. Задачей ИПЯ является перевод содержания документа в поисковое предписание или поисковый образ документа (при вводе документа в ИПС) и перевод содержания запросов пользователя в поисковый образ запроса (ПОЗ).
В качестве составляющих ИПЯ выделяются (Слайд 9):
· алфавит (набор буквенных и цифровых символов);
|
|
· слова, формируемые из алфавита с помощью морфологических правил - морфологии,
· словарьперевода, (в котором каждому слову или осмысленной конструкции естественного языка сопоставлено слово или словосочетание ИПЯ). Словарь может иметь достаточно сложную структуру, т.е. представлять собой тезаурус (См.ниже), который может включать в себя и алфавит, и слова, и словосочетания, и более сложные конструкции.
· правила, отражающие взаимоотношения между словами реализуются, например, с помощью текстуальных или контекстуальных отношений, или с помощью специальных правил грамматики - синтаксиса.
Словарь может состоять из ключевых слов (словосочетаний) или дескрипторов.
Под дескриптором понимается некоторый (выбранный разработчиком ИПЯ) обобщающий термин для отображения т.н. класса условной эквивалентности - группы синонимов или слов, которые для целей поиска в конкретной ИПС можно считать синонимами.
По аналогии с языками баз данных фактографических систем в ИПЯ можно выделить структурную и манипуляционную(поисковую) составляющие (Слайд 10).
Структурная составляющая ИПЯ (поискового пространства) документальных ИПС на основе индексирования реализуется индексными указателями, которыми могут быть:
· информационно-поисковые каталоги,
· тезаурусы,
· генеральные указатели.
Информационно-поисковые каталоги являются традиционными технологиями организации информационного поиска в документальных фондах библиотек, архивов и представляют собой классификационную систему знаний по определенной предметной области. Смысловое содержание документа в информационно-поисковых каталогах отображается тем или иным классом каталога, а индексирование документов заключается в присвоении каждому документу специального кода (индекса) соответствующего по содержанию класса (классов) каталога и создания на этой основе специального индексного указателя.
|
|
Тезаурус представляет собой специальным образом организованную совокупность основных лексических единиц (понятий) предметной области (словарь терминов) и описание отношений между ними. (Например, отношения «род - вид», «предмет - целое», «субъект – объект – средство – место - время действия»). Так же, как и в информационно-поисковых каталогах, в системах на основе тезаурусов в информационно-поисковое пространство отображается не весь текст документа, а только лишь выраженное средствами тезауруса смысловое содержание документа.
Генеральный указатель (конкорданс или глобальный словарь-индекс) в общем виде представляет собой перечисление всех слов (словоформ), имеющихся в документах хранилища, с указанием (отсылками) координатного местонахождения каждого слова. (Например, № документа — № абзаца — № предложения — № слова). Так как поисковое пространство в таких системах отражает полностью весь текст документа (все слова документа), а не только его смысловое содержание, то такие системы получили название полнотекстовых ИПС.
Поисковая (манипуляционная) составляющая ИПЯ реализуется дескрипторными и семантическимиязыками запросов.
Семантически-навигационные (гипертекстовые)системы являются продвинутымразвитием документальных ИПС.
Структурная составляющая ИПЯ таких ИПС реализуется в виде техники смысловых отсылок в текстах документов и в специальном навигационном интерфейсе по ним и в настоящее время представлена гипертекстовыми технологиями. (См. ниже)