Информационные и компьютерные технологии поиска документальной информации

Цель документального поиска — нахождение и выдача соот­ветствующих запросу пользователя документов или их описаний. Документы, отвечающие запросу пользователя, называются реле­вантными.

Примерами документальной информации, для которой эффективно автоматизированное хранение и поиск, могут служить: законы, постановления, комментарии к нормативным актам, тексты контрактов, переписка с клиентами и партнерами, проекты, стенограммы переговоров, приказы, распоряжения, письма, отчеты, планы, программы, записи судебных дел, постановления судов, научные статьи, доклады, конспекты, рефераты, периодические и специаль­ные печатные издания, каталоги фирм, рекламные издания, справочники и другие документы.

При автоматизации поиска документальной информации важнейшими являются задачи формализации содержания документа и запроса. При решении этих задач могут использоваться различные подходы.

Первый подход состоит в том, что содержание документа, а также его характеристики (дата издания документа, автор и т.п.) отображаются в некую структурированную информацию, представляющую собой, например, запись реляционного файла или строку в электронной таблице. В этом случае поиск документа сводится к поиску структурированной информации средствами СУБД или табличного процессора.

Второй подход состоит в том, что поиск происходит по всему тексту документа или по его поисковому образу. При этом в качестве запроса чаще всего выступают отдельные ключевые слова или их логические комбинации.

Эффективность документального поиска оценивают на основе показателей полноты и точности. Полнота поиска определяется как отношение числа выданных в ответ на запрос релевантных документов к числу всех имеющихся в поисковом массиве релевантных документов. Точность поиска определяется как отношение числа релевантных документов в выдаче к общему числу выданных документов.

Автоматизированный документальный поиск может быть организован на основе различных технологий: поиска по поисковому образу документа, поиска по полному тексту документа, поиска документов по гипертекстовым ссылкам.

Технология полнотекстового поиска является неотъемлемой составляющей таких современных и перспективных информационных технологий, как: системы управления документами (Document management system, DMS), технологии групповой работы над документами (groupware), технологии поиска в Internet/intranet, На технологии гипертекста базируется самый известный сервис Internet — World Wide Web (WWW).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: