Понятие и состав лингвистического обеспечения

Лингвистическое обеспечение информационно-поисковых систем

С самого начала появления информационно-поисковых систем их главной частью считался информационно-поисковый язык (ИПЯ). Повышенное внимание к проблемам разработки ИПЯ, как в теории, так и на практике, особенно характерно для периода 1960–1970-х годов. По данным Н.И.Гендиной пик публикаций по теме ИПЯ в нашей стране пришелся на 1974–1978 годы. В целом для работ этого периода развития ИПС характерно выявление природы ИПЯ через его сопоставление с естественным языком (ЕЯ). Большое внимание уделялось разработке конкретных языков и способов их использования (методик индексирования).

Постепенно наряду с термином ИПЯ стал использоваться термин “ лингвистическое обеспечение ” (ЛО), обозначающий весь комплекс языковых и логических средств и методов, используемых в ИПС для обеспечения основной задачи информационного поиска – сопоставления содержания документов и запросов. К ним относится собственно ИПЯ, критерий смыслового соответствия (КСС), методики индексирования, методики составления тезаурусов, различные правила, вспомогательные средства создания и ведения ИПЯ и т.п. Приведем два определения.

“Лингвистическое обеспечение – это комплекс средств представления информации в виде данных и интерпретации данных в процессе функционирования информационных систем”.

“Лингвистическое обеспечение – это комплекс мероприятий, направленных на разработку языковых средств АСНТИ, а также сами средства”.

К лингвистическому обеспечению ИПС стали относить и специальные языковые средства поиска в режиме диалога, и языковые средства мультибазового поиска, и средства автоматизации вспомогательных процессов в ИПС, предназначенные для ведения машинных словарей.

Развитие языковых средств систем управления базами данных (языки описания данных, языки манипулирования данными), а также различных языков программирования еще более расширили сферу применения понятия ЛО, не всегда, впрочем, правомерно.

Нередко в понятие “ЛО ИПС” включают всю совокупность языков, которые применяются как для составления программ, так и в процессе функционирования ИПС. В этом случае данный термин становится синонимом для термина “средства общения человека с машиной”. “Под языковыми средствами информационной системы мы будем... понимать весь комплекс языков и систем знаков (включая и естественный язык), используемых при проектировании АИС, составлении программ и в ходе информационных процессов, реализуемых на ЭВМ как программными средствами, так и пользователями АИС”. В состав языковых средств авторы указанной работы включают языки программирования, информационные языки, языки представления служебной или вспомогательной информации, используемой алгоритмами обработки сообщений, языки описания структур информации, в том числе структур массивов и сообщений, используемых программами обработки, служебные языки сервисных программ. “С точки зрения использования указанных языковых средств в процессах функционирования АИС их можно разделить на средства представления информации и средства доступа к ней. Для человека средствами доступа являются не только информационные языки, но и языки программирования...”. С таким расширительным толкованием ЛО никак нельзя согласиться. У языков программирования и информационных языков совершенно разное назначение. Поэтому вряд ли правомерно говорить о стирании грани между языками этих двух типов. Лингвистические средства информационного поиска описывают предметное содержание документов и запросов и определяют логику поиска, а программные, к которым относят языки программирования, языки описания структур данных и т.п., реализуют эту логику в той или иной вычислительной среде.

Рассмотрим состав и классификацию средств лингвистического обеспечения. Построение классификационной схемы языковых средств представляется важным как с теоретической, так и с практической точки зрения. “Классификация это один из способов логического анализа сложных систем. Расположение явлений по какой-то определенной схеме, выбранной исследователем для решения стоящих перед ним познавательных задач, это взгляд на систему в некотором специальном ракурсе, позволяющий отчетливо увидеть то, что ранее оставалось затушеванным”.

Любая классификация всегда относительна. Вопросы типологии языковых средств рассматриваются во многих работах. Одна и та же совокупность явлений может быть классифицирована по-разному, по разным признакам или критериям. Тем не менее, классификация позволяет сделать цельный взгляд на предмет исследования.

Предлагаем схему, отражающую объем и содержание понятия ЛО в его современном понимании. Итак, в состав лингвистического обеспечения документальной ИПС входят:

1. Собственно информационно-поисковый язык (язык описания содержания документов и запросов).

1.1. Алфавит и микросинтаксис ИПЯ.

1.2. Средства представления плана содержания (семантики):

словари, тезаурусы;

вспомогательные словари (единиц измерений, сокращений и т.п.);

рубрикаторы, классификаторы;

наполнение форматов.

1.3. Средства представления плана выражения:

грамматические средства ИПЯ (указатели связи, указатели роли и т.п.);

структура форматов.

1.4. Средства представления естественно-языковой информации в ИПЯ (правила представления текстов на ЕЯ, проблемы многоязычия, диакритики и т.п.).

2. Средства обеспечения совместимости различных языков:

таблицы соответствия;

таблицы конвертирования;

протоколы.

3. Процедурные средства:

3.1. Методики индексирования.

3.2. Алгоритмы автоматического индексирования.

3.3. Средства поиска:

язык запросов;

средства автоматической адресации запросов к базам данных;

единые командные языки.

4. Критерий смыслового соответствия.

5. Языки структурирования (представления) и метаописания данных.

6. Вспомогательные средства обработки текстов на ЕЯ:

программно-алгоритмические средства морфологического и синтаксического анализа;

средства семантической обработки текстовых данных;

лингвистические средства и алгоритмы автоматической классификации документов;

лингвистические средства и алгоритмы автоматизированного построения поисковых предписаний;

средства автоматизированного обнаружения ошибок;

лингвистические банки данных, машинные словари лексических (слов, словосочетаний) и морфологических единиц ЕЯ (основ, флексий, префиксов, префиксоидов).

7. Средства поддержки лингвистического обеспечения:

процедуры составления машинных словарей;

процедуры ведения машинных словарей;

документация по лингвистическому обеспечению.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: