double arrow

ДЕСКРИПТОР


ДОКУМЕНТАЛЬНЫЕ АИС

ИНФОРМАЦИОННЫЕ СИСТЕМЫ

СУБД с включающим языком

ЯОД – язык описания данных, ЯМД – язык манипулирования данными

Алгоритмический язык

Словарь данных


АИС должна удовлетворять ряду критериев:

1. Релевантность. Получаемая информация должна быть релевантна запросам любого типа. Информация – это данные, релевантные потребителю.

2. Управление по отклонениям. Административному работнику не требуется большого количества детальной информации. Необходимые сведения об отклонениях от плановых показателей.

3. Точность. Данные, полученные в ответ на запрос, должны быть правильны. Точность также предполагает, что информация отражает текущее состояние и, следовательно, она не должна основываться на устаревших данных.

4. Своевременность. Информация должна представлять именно тогда, когда она необходима потребителю.

5. Приспособляемость. Система должна быть способна удовлетворять различные запросы пользователя. В системе должны быть также предусмотрены возможности перепроектирования в соответствии с изменяющимися потребностями пользователя.




Очень важно заранее установить набор требований к системе.

Основной целью создания ИС является удовлетворение информационных потребностей пользователей путем предоставления необходимой им информации на основе хранимых данных. Потребность в информации как таковой не исчерпывает понятия информационных потребностей. Обычно в понятие информационных потребностей включают определенные требования к качеству информационного обслуживания и поведению системы в целом (производительность, актуальность и надежность данных, ориентация на пользователя и ряд других, о чем мы поговорим позже).

Под информационной системой (ИС) понимается организационная совокупность технических и обеспечивающих средств, технологических процессов и кадров, реализующих функции сбора, обработки, хранения, поиска, выдачи и передачи информации. Здесь отсутствуют прикладные задачи (программы).

В автоматизированных информационных системах (АИС) их заменяет интерпретатор языка запросов (ЯЗ), позволяющий формулировать требования на выдачу справок. В простейшем случае это одна или несколько записей из файла.

Различают фактографические и документальные АИС.

В документальных АИС хранят различные неформализованные документы.

ОСНОВНЫЕ ПОНЯТИЯ

ЯОД – язык описания документа ПОД – поисковый образ документа

ЯОЗ – язык описания запроса ПОЗ – поисковый образ запроса

Релевантность, точность, полнота

Словарь дескрипторов, тезаурус

Основная задача – поиск документов по их содержанию.

Если язык запросов (как и язык самих документов) является обычным (неформализованным) языком (естественным), возможно с профессиональным уклоном, то полное решение задачи поиска требует понимания системой смысла запросов. Эта задача связана с проблемой создания искусственного интеллекта.



Поэтому на практике применяются упрощенные способы поиска. Простейший – использование дескрипторов.

Дескриптор – слово или совокупность слов (в том числе специальный профессиональный термин), которое в наибольшей степени характеризует содержание документа.

В АИС создается фиксированный словарь дескрипторов. Система просматривает текст запроса (на естественном языке) и фиксирует все встречающиеся дескрипторы. Затем просматривает полные тексты всех документов и отбирает те из них, которые содержат все дескрипторы из запроса. Необходимо честь, что и в запросе, и в тексте дескрипторы могут изменяться по падежам, по родам и так далее. Поэтому идентификация дескрипторов должна проводиться с точностью до окончаний (или даже до суффиксов).

Просмотр полных текстов документов требует много времени. Вместо этого просматривают поисковые образы.

Поисковый образ документа – совокупность дескрипторов, описывающая содержание и смысл документа.

Поисковый образ запроса – совокупность дескрипторов из запроса.

Поисковый образ составляется заранее либо вручную, либо автоматически в результате просмотра текстов специальной программой. Поисковые образы хранятся отдельно от текстов самих документов и имеют в своем составе ссылку на адрес соответствующего документа. В процессе поиска сравниваются поисковые образы запроса и документа на основе критерия смыслового соответствия. Этот критерий либо фиксирован для системы, либо указывается в запросе. Если условие сравнения выполняется, документ считается релевантным запросу. В качестве критерия смыслового соответствия может выступать условие совпадения множества дескрипторов поисковых образов, включение множеств друг в друга, пересечение множеств и др.



Наиболее дешевый способ хранения информации – микрофильмы и микрофиши. Их используют для хранения полных текстов документов. Поисковые образы хранятся во внешней памяти ЭВМ. Поисковые образы запросов обычно хранятся в ОП. После поиска и определения адреса документа осуществляется обращение к микрофильму или микрофиши. Можно получить твердую копию на бумаге.

Так как время обращения к хранилищу микрокопий велико, используется промежуточный этап.

Если найдено большое количество релевантных документов, в диалоге уточняется, что выдавать. Могут быть показаны заголовки документов, их полные наборы дескрипторов. В некоторых АИС на внешних ЗУ хранятся краткие рефераты документов, текст которых выдается пользователю на экран. Если пользователь подтвердит необходимость документа, выдается твердая копия.

Документальная АИС с простыми дескрипторными поисковыми образами может рассматриваться как фактографическая с булевыми атрибутами (да-нет), число которых равно полному числу используемых дескрипторов. Но такое представление, вообще говоря, не экономично, если число дескрипторов в словаре велико.

Описать содержание документа простой системой дескрипторов очень сложно, т. к. в естественном языке имеется неоднозначность, выражение смысла различными средствами, синонимичность и так далее.

Поэтому при поиске по дескрипторам могут быть извлечены нерелевантные документы, то есть не имеющие отношения к рассматриваемому запросу, а некоторые релевантные могут быть не найдены.

В первом случае говорят о неточности (информационный шум) АИС, во втором о её неполноте.

Для системы применительно к каждому запросу определяются (экспертным путем) два коэффициента.

Коэффициент полноты – отношение числа выданных по запросу релевантных документов к их общему числу в поисковом массиве.

Коэффициент точности – отношение релевантных (в данной задаче) документов к общему числу выданных (релевантных и нерелевантных документов).

Система характеризуется средним значением этих коэффициентов или минимальными их величинами.

Множество простых дескрипторов дополняется служебными словами (например, предлоги) и строится специальная грамматика (формализованная). Это множество превращается в некоторый формальный язык, что улучшает информационные характеристики системы. Но это усложняет поиск, удорожает систему. Вводится статистика и постоянные запросы.







Сейчас читают про: