Информационно-поисковые языки

Для обеспечения работы информационных систем разрабатываются информационные языки. В основе всех языков, действующих в человеческом обществе, в том числе и искусственных информационных, лежит семантический анализ, моделирующий процесс понимания смысла человеком. Задача описания смысла текста является одной из краеугольных проблем теоретической и прикладной лингвистики.

Искусственные языки, предназначенные для формализованного описания смыслового содержания документов или данных с целью обеспечения последующего поиска, называют информационно-поисковыми языками. Необходимость в искусственных языках вызвана не­об­ходи­мос­тью устранения “избыточности” и “недостаточности” естественного языка для целей инфор­мационного пои­с­ка, а также ликвидации присутствующих в нем синонимии и омонимии.

Можно сказать, что информационно-поисковые языки совместно с критерием смыслового соответствия выполняют в ИПС специальную функцию «опосредованной коммуникации». Аспекты этой «коммуникации» рассматривались выше, при определении понятия релевантность. Искусственные языки, как правило, описываются по аналогии с естественными. С одной стороны, часто эта аналогия чисто внешняя, с другой – общепринятый и понятный язык лингвистики создает общую метаязыковую среду для разных авторов, читателей и разных объектов описания.

Любой письменный язык, в том числе и искусственный, состоит, по крайней мере, из трех компонентов: алфавита, словаря и грамматики. Исходя из такого понимания информационного языка (ИЯ) и базируясь на инструментарии традиционного лингвистического описания, В.А.Москович выделяет внешние и внутренние по отношению к языку признаки, на основании которых строится классификация. “Внешние признаки ИЯ характеризуют ИЯ с точки зрения условий его применения. При этом нас может интересовать тип документов, обрабатываемых ИПС, характер тематики обрабатываемого фонда документов и т.п. Внутренние по отношению к ИЯ признаки характеризуют способы организации понятий и формы их выражения. Именно классификация ИЯ по внутренним признакам позволяет обнаружить основные структурные типы ИЯ, сходства и различия этих типов.

В цитируемой работе рассматриваются способы организации понятий и способы их выражения, степень выраженности синтагматических и парадигматических отношений. Для лингвистов представляет интерес (правда, скорее теоретический) разработанная В.А.Московичем морфологическая классификация информационных языков, основывающаяся на классификации естественных языков Э.Сепира. Сепир разделяет все понятия, выражаемые языком, на четыре группы. В различных языках эти группы понятий могут выражаться разными способами (изоляция, агглютинация, фузия, символизация). Кроме того, наблюдаются различные степени объединения корневых и аффиксальных элементов в слове. В.А.Москович выделил 8 морфологических типов языков, приводя для каждого из них примеры как из естественных, так и из информационных языков. Представляет также интерес его анализ методов построения информационных языков, базирующийся на лингвистических основаниях.

Увеличение количества ИПЯ, расширение сферы их использования вызвали к жизни и многие другие классификации информационных языков. Наиболее известной и распространенной является классификация А.И.Черного, впервые предложенная в книге «Основы научно-технической информации» и в переработанном виде изложенная в более поздней работе автора.

Эта классификация основывается на понятии координации, которое обозначает операцию пересечения (логического умножения) понятий. Принцип координатного индексирования был разработан в 1950-х годах в процессе создания еще механизированных ИПС. Он заключается в том, что главная и дополнительные темы документа описываются перечнем ключевых слов (или дескрипторов), являющихся именами простых понятий. Такие слова выступают в качестве как бы «координат» документов в некотором умозрительном n -мерном предметно-тематическом пространстве. На множестве этих простых лексических единиц (ЛЕ) информационно-поискового языка во время поиска выполняются логические операции. В результате понятия, выражаемые этими ЛЕ, соотносятся друг с другом – координируются – и образуют новые, более узкие или более широкие, понятия или классы понятий. Происходит это при поиске под воздействием поискового предписания. Операция построения новых сложных (более узких) классов понятий из уже имеющихся может строиться по-разному: путем дробления понятий или путем пересечения простых классов – и в разных “местах” системы: или при построении ИПЯ, или при его использовании. Координация строит такие классы при использовании.

Если ИПЯ имеет такую структуру и правила индексирования, при которых индексирование документов производится приписыванием им предварительно построенных классов (понятий), а имена этих классов становятся поисковыми образами, то такой ИПЯ называется предкоординированным. Если же поисковый образ документа состоит из простых классов, а операция координации (построение сложных классов путем пересечения простых) реально происходит только при поиске (после индексирования), то такой ИПЯ называется посткоординируемым.

Общая классификация ИПЯ, предложенная А.И.Черным, имеет следующий вид:

А. Предкоординированные ИПЯ.

А.1. Иерархические классификации.

А.2. Алфавитно-предметные классификации.

А.3. Фасетные классификации.

Б. Посткоординируемые ИПЯ.

Б.1. Дескрипторные языки.

Б.2. Семантические языки.

Б.3. Синтагматические языки.

В. Язык библиографических ссылок.

В ряде работ справедливо отмечались недостатки данной классификации. И это естественно: желание отразить все многообразие языков и их особенности не укладывается в простую древовидную схему. Тем не менее, эта классификация стала общепринятой и достаточно хорошо соотносится с реальной «информационно-поисковой действительностью». В качестве ее усовершенствования мы бы предложили исключить из нее язык библиографических ссылок, фактически, являющийся языком фактографического (объектно-признакового) типа, и добавить вербальные языки.

Рассмотрим указанные выше типы языков.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: