Назначение, структура и использование информационно-поисковых тезаурусов

Для уменьшения количества терминов в ПО вводят ИПТ (тезаурус - синоним), в котором отражаются устойчивые связи между понятиями данной предметной области.

Тезаурус – семантическая сеть, в которой понятия связаны регулярными и устойчивыми семантическими отношениями: иерархическими (например целое-часть, имеет место нарушение правильной структуры дерева), ассоциативными, эквивалентности. Тезаурус является лексическим инструментом ИПС для осуществления поиска.

Информационно-поисковые тезаурусы.(ИПТ) позволяют решить проблему соотне­сения:

• авторской терминологии (понятий и слов естественного языка, которые автор использует для обозначения этих по­нятий);

• терминологии системы (понятий и терминов, которые используются для выражения этих понятий при вводе доку­ментов в ИПС);

• терминологии потребителя (понятий и терминов, которые потребитель использует для представления этих понятии при формировании запросов).

Тезаурус состоит из контролируемого, но изменяемого словаря терминов, между которыми указаны смысловые связи, представляет собой перечень лексических единиц, упорядоченных по систематическому и алфа­витному принципам. Лексические единицы обычно делятся на дескрипторы и аскрипторы.

Дескриптор— лексическая единица, предназначенная для использования в поисковых образах документов и/или запросов. Аскриптор — лексическая единица, которая в поисковых образах документов (запросов) при поиске или об­работке информации подлежит замене на дескриптор. ИПТ подразделяют на два типа:

• тезаурусы, выделяющие среди своих лексических единиц дескрипторы и аскрипторы;

• тезаурусы, все лексические единицы которых являются де­скрипторами.

Лексические единицы тезауруса поделены на дескрипторы (выделены прописными буквами) и ключевые слова— не дескрипторы (строчными буквами) и нормализованы следующим образом:

• имена существительные, обозначающие исчисляемые объекты, представлены в форме именительного падежа множе­ственного числа;

• существительные, обозначающие неисчисляемые объекты, представлены в форме именительного падежа единственно­го числа;

• для всех словосочетаний-дескрипторов, включая словосо­четания с именем собственным, используется естествен­ный (прямой) порядок слов.

Лексические единицы в тезаурусе организованы в виде сло­варных статей. Словарная статья дескриптора состоит из собственно дескриптора (заглавного дескриптора) и списка дескрип­торов и ключевых слов, связанных с заглавным дескриптором по смыслу.

Общеупотребительные аббревиатуры входят в тезаурус в ка­честве дескрипторов. Каждая из них снабжена расшифровкой, которая приводится в косых скобках строчными буквами.

В дескрипторной статье лексические единицы располагают­ся в следующем порядке:

• заглавный дескриптор;

• ключевые слова, условно синонимичные заглавному деск­риптору (с);

• вышестоящие дескрипторы(в) (включают в себя заглавный);

• нижестоящие дескрипторы(н) (наоборот);

• дескрипторы, связанные с заглавным дескриптором одним из ассоциативных отношений(а).



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: