Под документом будем понимать хранящийся в информационной базе объект произвольной структуры, содержащий информацию произвольного характера, доступ, к которому можно получить по его реквизитам.
В качестве примеров документов можно привести книги, статьи, рефераты и тезисы докладов, тексты приказов и распоряжений, технический отчёты, и патенты, бухгалтерские документы, карты местности, рисунки и иные графические изображения, звуковые и видеозаписи и т. д. Очевидно, что документ, в отличие от факта, не может быть выражен простой структурой. Причём извлечение данных из текстов по формализованным позициям для ввода в фактографические системы может приводить к ошибкам и потере части информации, которая имеется в исходных источниках.
Реквизитами документа является совокупность его свойств, позволяющих однозначно его идентифицировать, например, название документа, его номер, дата создания, имена создателей и т.д. Кроме того, электронные документы характеризуются электронной подписью и форматами, например, для текстовых документов это могут быть: «txt», «doc», «rtf», «pdf», «html» и другие. Причём «pdf» используется для графических и текстово-графических документов.
|
|
БД документального типа могут быть организованы по-разному – без хранения (библиографические и реферативные БД, БД-указатели) и с хранением исходного документа на электронных носителях. Системы, в которых предусмотрено хранение полного текста документа, называют полнотекстовыми.
Документные библиотечные ИПС часто делят на системы с библиотечным или библиографическим поиском. В первом случае речь идёт о содержании первичных документов, а во втором об их описании (вторичные документы) – документографические ИС.
Поскольку в документных БД единицей хранения является документ, то пользователь в ответ на запрос получает сам документ или ссылку на него.
Разновидностью документальных систем являются поисковые Интернет системы. Фактически они не предоставляют пользователю конкретные документы, а выдают ему полученный в результате запроса перечень ссылок на документы (и не только). Типичным примером подобных документальных информационных систем являются справочно-правовые (юридические) системы. В отличие от Интернет систем, они выдают набор документов.
Документальная информационно-поисковая система (англ. «Document information retrieval system») – информационно-поисковая система, предназначенная для отыскания документов, содержащих необходимую пользователю информацию.
Документальная и фактографическая информационные системы выдают пользователю разную по виду информацию. Обычно документальная ИС на запрос выдаёт сведения о множестве документов, где содержится нужная информация или указывает адрес хранения документов. Фактографическая система на запрос выдаёт необходимую пользователю информацию.
|
|
Любая документальная ИПС (от ручной до автоматизированной) включает: информационно-поисковый язык (ИПЯ), правила перевода текстов документов и запросов с естественного языка на ИПЯ, формальные правила (алгоритмы) поиска, реализующие алгоритмы поиска технические устройства, фонд документов (или их адресов), записанных на электронных носителях информации.
Информационное и лингвистическое обеспечение АИС в первую очередь определяют:
· внутрисистемные и коммуникативные форматы представления и хранения библиографической информации;
· системы классификации и индексирования, используемые для автоматизированной обработки документных потоков;
· комплекс словарно-тезаурусной поддержки и лингвистических процессоров.
Информационно-поисковый язык, система индексирования.
ИПЯ – это искусственные языки, сконструированные для выражения (формулировки) основного смыслового содержания документов и запросов с целью последующего их сопоставления.
ИПЯ включает в себя:
· алфавит – набор определённых знаков и символов, используемый для записи слов и выражений;
· лексические единицы – отдельные фразы и выражения, сконструированные из алфавита с помощью синтаксических и морфологических правил, а также индексы.
Перевод с естественного на машинный поисковый язык называют индексированием.
Технология обработки данных.
Обработка данных включает взаимосвязанные операции поиска, выборки, сортировки, слияния, проведения расчётов и т.д. Обычно она предполагает управление данными, как правило, без учёта заложенного в них смысла. К способам обработки данных относят: централизованный, децентрализованный, распределённый и интегрированный.
Обработка информации подразумевает преобразование данных с учётом их содержания. В результате обработки информации обычно создаются различные виды отчётов (регулярные, специальные, сравнительные, чрезвычайные и др.) и документов.
Контрольные вопросы
1. Дайте определение термина «Документ».
2. Назовите реквизиты документа.
3. Как называются системы, в которых предусмотрено хранение полного текста документа?
4. Что получает пользователь в ответ на запрос в документальной ИС?
5. Дайте определение понятия «Документальная информационно-поисковая система».
6. В чем отличия документальной информационной системы от фактографической?
9. Дайте определение понятия «Информационно-поисковые языки».
Определите различие между обработкой данных и обработкой информации.