Дескрипторные информационно-поисковые языки

В основе построения дескрипторных информационно-поясковых языков лежит принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так называемые полнозначные слова — существительные, прилагательные, глаголы, наречия, числительные, местоимения. Ключевыми словами не могут быть предлоги, союзы, связки, частицы.

Основными элементами ДИПЯ являются:

· словарь лексических единиц;

· правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов с естественного языка на ИПЯ:

· правила построения ИПЯ.

Словари лексических единиц делятся на две группы:

· основные лексические словари, составляющие лексику ИМЯ;

· морфологические словари, обеспечивающие морфологический анализ и нормализацию слов.

В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.

Дескриптор — понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. Дескриптор - это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание.

Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ).

Тезаурус (от греч. «хранилище», «сокровищница») в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова — дескрипторы определенной предметной области, указаны их синонимы, установлены способы устранения синонимии, омонимии, полисемии, определены родовидовые и ассоциативные связи дескрипторов.

Наиболее важными парадигматическими отношениями ИПТ являются:

· соподчинение;

· род-вид;

· часть—целое;

· причина-следствие;

· функциональное сходство.

Обобщенная структура ИПТ включает как минимум три составляющих: словарную часть, семантическую карту, руководство по использованию.

Приведем ряд определений.

Словарная часть алфавитный список дескрипторов с их словарными статьями.

Семантическая карта — система тематических классов дескрипторов, представленная в виде графической схемы или таблицы.

Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.

Отличием информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации является то, что в тезаурусах, помимо классификационнойсхемы, присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов.

Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности индексирования документов в рамках дескриптивного подхода. Иначе говоря, в системах на основе ПИТ ПОД представлен набором дескрипторов. Однако в процессе индексирования документов учитываются семантические отношения междудескрипторами, что, В конечном счете, обеспечивает более адекватный содержанию документа ПОД и повышает эффективность поиска документов.



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: