Документальные информационные системы

 

Под документом будем понимать хранящийся в информационной базе объект произвольной структуры, содержащий информацию произвольного характера, доступ, к которому можно получить по его реквизитам.

В качестве примеров документов можно привести книги, статьи, рефераты и тезисы докладов, тексты приказов и распоряжений, технический отчёты, и патенты, бухгалтерские документы, карты местности, рисунки и иные графические изображения, звуковые и видеозаписи и т. д. Очевидно, что документ, в отличие от факта, не может быть выражен простой структурой. Причём извлечение данных из текстов по формализованным позициям для ввода в фактографические системы может приводить к ошибкам и потере части информации, которая имеется в исходных источниках.

Реквизитами документа является совокупность его свойств, позволяющих однозначно его идентифицировать, например, название документа, его номер, дата создания, имена создателей и т.д. Кроме того, электронные документы характеризуются электронной подписью и форматами, например, для текстовых документов это могут быть: «txt», «doc», «rtf», «pdf», «html» и другие. Причём «pdf» используется для графических и текстово-графических документов.

БД документального типа могут быть организованы по-разному – без хранения (библиографические и реферативные БД, БД-указатели) и с хранением исходного документа на электронных носителях. Системы, в которых предусмотрено хранение полного текста документа, называют полнотекстовыми.

Документные библиотечные ИПС часто делят на системы с библиотечным или библиографическим поиском. В первом случае речь идёт о содержании первичных документов, а во втором об их описании (вторичные документы) – документографические ИС.

Поскольку в документных БД единицей хранения является документ, то пользователь в ответ на запрос получает сам документ или ссылку на него.

Разновидностью документальных систем являются поисковые Интернет системы. Фактически они не предоставляют пользователю конкретные документы, а выдают ему полученный в результате запроса перечень ссылок на документы (и не только). Типичным примером подобных документальных информационных систем являются справочно-правовые (юридические) системы. В отличие от Интернет систем, они выдают набор документов.

Документальная информационно-поисковая система (англ. «Document information retrieval system») – информационно-поисковая система, предназначенная для отыскания документов, содержащих необходимую пользователю информацию.

Документальная и фактографическая информационные системы выдают пользователю разную по виду информацию. Обычно документальная ИС на запрос выдаёт сведения о множестве документов, где содержится нужная информация или указывает адрес хранения документов. Фактографическая система на запрос выдаёт необходимую пользователю информацию.

Любая документальная ИПС (от ручной до автоматизированной) включает: информационно-поисковый язык (ИПЯ), правила перевода текстов документов и запросов с естественного языка на ИПЯ, формальные правила (алгоритмы) поиска, реализующие алгоритмы поиска технические устройства, фонд документов (или их адресов), записанных на электронных носителях информации.

Информационное и лингвистическое обеспечение АИС в первую очередь определяют:

· внутрисистемные и коммуникативные форматы представления и хранения библиографической информации;

· системы классификации и индексирования, используемые для автоматизированной обработки документных потоков;

· комплекс словарно-тезаурусной поддержки и лингвистических процессоров.

 

Информационно-поисковый язык, система индексирования.

ИПЯ – это искусственные языки, сконструированные для выражения (формулировки) основного смыслового содержания документов и запросов с целью последующего их сопоставления.

ИПЯ включает в себя:

· алфавит – набор определённых знаков и символов, используемый для записи слов и выражений;

· лексические единицы – отдельные фразы и выражения, сконструированные из алфавита с помощью синтаксических и морфологических правил, а также индексы.

Перевод с естественного на машинный поисковый язык называют индексированием.

 

Технология обработки данных.

Обработка данных включает взаимосвязанные операции поиска, выборки, сортировки, слияния, проведения расчётов и т.д. Обычно она предполагает управление данными, как правило, без учёта заложенного в них смысла. К способам обработки данных относят: централизованный, децентрализованный, распределённый и интегрированный.

Обработка информации подразумевает преобразование данных с учётом их содержания. В результате обработки информации обычно создаются различные виды отчётов (регулярные, специальные, сравнительные, чрезвычайные и др.) и документов.

Контрольные вопросы

1. Дайте определение термина «Документ».

2. Назовите реквизиты документа.

3. Как называются системы, в которых предусмотрено хранение полного текста документа?

4. Что получает пользователь в ответ на запрос в документальной ИС?

5. Дайте определение понятия «Документальная информационно-поисковая система».

6. В чем отличия документальной информационной системы от фактографической?

9. Дайте определение понятия «Информационно-поисковые языки».

Определите различие между обработкой данных и обработкой информации.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: