Компьютерные технологии поиска документов

(документальной информации)

В настоящее время в связи с возрастанием объема документальной информации, необходимой для принятия эффективных управленческих решений, и возможностями, предоставляемыми новыми компьютерными технологиями, автоматизированные информационно-поисковые системы стали широко использоваться в различных сферах деятельности, в том числе и в управленческой. С одной стороны, современные компьютерные технологии позволяют создать автоматизированную информационно-поисковую систему (ИПС) по документам организации, не только отвечающую требованиям ГСДОУ, но и обладающую высочайшей оперативностью поиска необходимых документов. С другой стороны, эти технологии представляют возможность существенно модернизировать традиционную ИПС, придав ей функции не только поиска документов, но также хранения их текстов в соответствующей памяти (базе данных) и предоставление их пользователю по запросу. Спектр документов (документальной информации), для которых эффективно применение рассматриваемых технологий, весьма и весьма обширен; ограничение его определяется лишь условиями доступности (служебное пользование, секретность и др.).

Цель документального поиска — нахождение и выдача соответствующих запросу пользователя документов или их описаний.

При автоматизации поиска документальной информации важнейшими являются задачи формализации содержания документа и запроса. При решении этих задач могут использоваться различные подходы.

Первый подход состоит в том, что содержание документа, а также его характеристики (дата издания документа, автор и т. п.) отображаются в некую структурированную информацию, представляющую собой, например, запись реляционного файла. В этом случае поиск документа сводится к поиску структурированной информации средствами системы управления базой данных (СУБД).

Второй подход состоит в том, что поиск происходит по всему тексту документа или по его поисковому образу. При этом в качестве запроса чаще всего выступают отдельные ключевые слова или их логические комбинации.

Автоматизированный документальный поиск может быть организован на основе различных технологий: поиска по поисковому образу документа, поиска по полному тексту документа, поиска документов по гипертекстовым ссылкам.

В документальных информационно-поисковых системах, их также называют библиографическими, поиск документа происходит по краткому формализованному описанию его содержания - так называемому поисковому образу документа (ПОД).

Основная идея поиска по ПОД состоит в том, что центральная тема документа выражается в виде краткого текста. В простейшем случае функцию такого краткого текста выполняет заглавие документа, в качестве которого в самом начале используется первая фраза документа. Это освобождает пользователя (библиотекаря) от необходимости просматривать весь текст документа, что значительно повышает скорость поиска.

Важнейшей структурной составляющей документальной информационно-поисковой системы является информационно-поисковый язык (ИПЯ).

Информационно-поисковый язык – искусственный язык для выражения содержания документов или запросов с целью последующего поиска. Основное назначение ИПЯ – установить принадлежность того или иного документа к определенной группе понятий. Перевод текстов документов и запросов на ИПЯ называется индексированием. В результате индексирования содержание документа отображается в ПОД, а содержание запроса – в поисковое предписание (ПП). Индексирование может быть ручным (когда его производит человек) или автоматическим.

К настоящему времени разработан ряд ИПЯ, носящих как общеотраслевой, так и специальный характер, например, Универсальная десятичная классификация (УДК), классификаторы документов, отраслевые дескрипторные языки. Однако разработка документальных информационно-поисковых систем (ДИПС) для управленческих документов, как правило, требует разработки собственного ИПЯ, адекватного данной предметной области.

Для общения человека с компьютером разрабатываются специальные искусственные языки. Естественный язык в этом качестве пока не может быть использован без специального предварительного преобразования.

Искусственный язык, как правило, разрабатывается на основе естественного, при этом устраняется многозначность слов последнего. В ИПС для однозначного описания основного смысла содержания документа и информационного запроса используются специализированные языки, состоящие из алфавита, лексики и грамматики.

На практике наиболее часто применяются классификационные информационно-поисковые языки, включающие в себя информационно-поисковый язык иерархического типа, информационно-поисковый язык фасетного типа, алфавитно-предметную классификацию.

Иерархическая классификация – это перечислительная классификация; в ней все возможные классы заранее перечислены, и каждый класс делится на подклассы. Преимущество языков иерархического типа состоит в простоте индексирования и поиска. Классификация наиболее эффективна и том случае, когда классы в иерархической системе располагаются в естественном порядке и набор классов в течение времени не изменяется. Например, классификация документов в организации, имеющей стабильную структуру.

ИПЯ фасетного типа основаны на принципах многоаспектной классификации, в которой каждый конкретный класс строится при индексировании по определенным правилам из предварительно заданных категориальных классов – фасетов. В системах фасетной классификации не ставится задача перечислить все сложные классы. Такие системы предлагают составные элементы, из которых по фасетной формуле составляется индекс. Преимущество ИПЯ фасетного типа по сравнению с ИПЯ иерархического типа состоит в том, что допускается многоаспектное индексирование, так как существует возможность строить классы из разных сочетаний фокусов и получать любые сочетания заранее выбранных характеристик объектов классификации.

На практике иерархическая и фасетная классификации часто используются в сочетании.

Алфавитно-предметная классификация – система классов, каждый из которых соответствует определенной теме или одному виду предметов, причем классы расположены в алфавитном порядке имен этих классов.

Основной словарный состав (лексика) ИПЯ состоит из упорядоченных по алфавиту множества слов, словосочетаний и фраз естественного языка.

Алфавитно-предметная классификация содержит:

предметный заголовок – слово, словосочетание или фраза ЕЯ, используемые для обозначения предмета или темы, заголовок может подразделяться на подзаголовки;

предметный словник (лексический состав языка) — упорядоченное по алфавиту множество предметных заголовков, используемых для построения алфавитно-предметной классификации;

предметную рубрику – совокупность предметного заголовка с описанием адреса хранения документов, основная тема которых обозначается этим предметным заголовком.

Алфавитно-предметная классификация предназначена для построения каталогов для узкопредметного поиска. В таких каталогах под предметными заголовками даются сведения (шифр или библиографическое описание) документов, предмет которых обозначен данным заголовком.

Алфавитно-предметная классификация используется, главным образом, для информационного поиска по отдельным предметам и темам и применяется в качестве предметных указателей к каталогам документов.

Основной недостаток классификационных языков состоит в том, что они не обеспечивают возможности поиска документов по любому, заранее не заданному сочетанию признаков.

В настоящее время в современных автоматизированных системах поиска документальной информации реализуются технологии поиска по полному тексту документов. Такие системы получили название полнотекстовые базы данных или текстовые базы данных. Они используются прежде всего для хранения и поиска правовой информации, периодических изданий и управленческой документации.

При формировании запросов в полнотекстовых базах данных учитывается логическая взаимосвязь терминов и другие аспекты естественного языка. С этой целью используют различные средства (усечение терминов, запрос по образцу и др.).

Некоторые механизмы поиска позволяют выделить в выданном наборе документов особо полезный документ и задать операцию типа «Найти аналогичную информацию», «Найти подобные». При этом поиск выполняется на основе всех содержащихся в данном документе ключевых слов (запрос по образцу).

Центральной частью каждой ИПС является информационно-поисковый массив (ИПМ), который может быть организован различными способами. В ДИПС ИПМ подразделяется на две части: сами документы или их копии и ПОД с адресами — номерами документов в поисковом массиве. Поиск осуществляется по второй части ИПМ.

В полнотекстовых базах данных поиск может осуществляться как по самому тексту документа (при такой организации поиск будет очень медленным), так и в специальных поисковых файлах, содержащих информацию о тексте документа (индексах).

В ИПС используют две принципиальные схемы информационного массива – прямую и инверсную.

При прямой организации каждому документу соответствует перечень слов, составляющих текст или поисковый образ документа. Например, логическая структура поискового файла при прямой организации будет выглядеть следующим образом (рис. 5.3).

При этом отыскание нужных документов производится путем поочередного сравнения поисковых образов документов со словами, составляющими информационный запрос, т. е. реализуется принцип последовательного доступа к данным. Достоинства прямой схемы состоят в простоте организации и использования, например, для включения нового документа в массив достаточно добавить новую запись в файл. Недостатком прямой организации поиска является необходимость последовательного просмотра ПОД всех документов, что ведет к большим затратам времени, поэтому в современных текстовых базах данных применяют инверсный способ.

Адрес документа Ключевые слова
D1, D2, D3, D4, D5 S2,S3 S1,S3,S5 S1,S3 S3,S6 S3,S4 S

Рис. 5.3. Прямая схема организации информационного массива

Инверсный способ организации поискового массива предусматривает создание инвертированной матрицы, в которой и происходит поиск (инвертированный матричный индекс) (рис. 5.4).

Слова Адреса документов
S1 S2 S3 S4 S5 S6
 
D2, D3, D7, D8, D1, D2, D3, D4, D5, D6, D8, D9 D1, D2, D3, D4, D5, D6, D8, D9 D5, D6, D7, D8, D9 D2, D5, D7, D9 D4

Рис. 5.4. Инверсная схема организации информационного массива

Простой индекс можно представить как бинарное отношение I(v, а), в котором «v» – слово, взятое из текста, а «а» – список адресов документов, содержащих это слово. Каждый кортеж инвертированного индекса называется инвертированным списком.

Инвертированная матрица напоминает предметный указатель в книге, где слова, размещенные в алфавитном порядке, сопровождаются перечислением номеров страниц, на которых они встречаются.

Документальный поиск сводится к просмотру соответствующих записей файла инвертированного матричного индекса. Таким образом, отпадает необходимость в последовательном просмотре всего информационного массива и значительно сокращается время поиска.

Индексирование (инвертировании) текста документа может быть частичным или полным.

В случае частичного инвертирования в индекс включаются все значимые слова текста документов, а незначимые удаляются. В качестве незначимых слов выступают союзы, предлоги и прочие служебные части речи.

При полном инвертировании всех значащих слов текста документов файлы инвертированных матричных индексов могут достигать гигантских размеров. Часто для них требуется более 50 % дискового пространства, необходимого для хранения самих документов. Однако увеличение инвертированного матричного индекса в размерах замедляется с ростом числа документов, так как с каждым новым документом вероятность того, что встречающиеся в нем значимые слова уже включены в индекс, увеличивается. В этом случае в матрицу добавляются лишь указатели на новые документы.

При решении задач организации эффективного доступа к данным индексы больших размеров преобразуют в иерархию индексов небольших размеров. Один из способов реализации таких индексных структур состоит в использовании В-деревьев, листьями которых являются ссылки на документы.

В дополнение к прямой и инвертированной схемам в ИПС используется атрибутный индекс. Он позволяет хранить данные о документе, не содержащиеся непосредственно в его тексте, например, имя автора, дату создания, наименование темы и другие фактические данные. Данные могут автоматически извлекаться из документа либо вноситься вручную при вводе документа в систему. Структура атрибутного индекса соответствует стандарту представления структурированной информации, т. е. это таблица с заранее заданными полями. На рис. 5.5 представлен пример организации поискового файла – атрибутного индекса, в котором все документы характеризуются одним и тем же набором реквизитов-полей: автор документа, вид документа и его номер, дата издания, название. Поиск по атрибутному индексу осуществляется средствами обработки запросов СУБД – выдаются только те документы, значения атрибутов которых удовлетворяют условиям запроса.

Автор Вид документа Дата издания Название
Правительство РФ Постановление №1172 07.11.96 Об утверждении Положения о порядке контроля за вывозом из РФ товаров и технологий двойного назначения, экспорт которых контролируется
ЦБ РФ Приказ № 02-368 27.09.97 О введении в действие Инструкции № 49 «О порядке регистрации кредитных организаций и лицензирования банковской деятельности»
ГТК РФ Письмо №01-14/1104 01.10.96 О применении Положения о таможенном перевозчике

Рис. 5.5. Пример атрибутного индекса

Поиск по атрибутному индексу выполняется быстрее, чем по инвертированному матричному индексу, но имеет значительно меньше поисковых возможностей. Однако атрибутный индекс позволяет находить информацию, не являющуюся составной частью текста документа. Кроме того, файлы атрибутных индексов значительно меньше по размеру файлов инвертированных матричных индексов с полным текстом, поскольку в этом случае с каждым документом связано гораздо меньше хранимой информации.

Реализация современных ИПС как атрибутного, так и инвертированного матричного индексирования позволяет, например, отыскать все документы, созданные за определенный период времени и при этом содержащие конкретную фразу. Первая часть поиска – по дате – выполняется с помощью атрибутного индекса, а вторая часть – по заданному набору слов – на основе инвертированного матричного индекса. Разрешается и обратная последовательность отбора. Так, если пользователь из всей базы предварительно получил список документов, содержащих сведения о льготах по уплате подоходного налога, он может сузить этот список, ограничившись документами, принятыми каким-либо органом или за определенный период (дату).

Поиск документов по гипертекстовым ссылкам базируется на гипертекстовых технологиях поиска документальной информации. Основная идея гипертекстовых технологий состоит в том, что поиск документальной информации происходит с учетом множества взаимосвязей, имеющихся между документами, а значит, более эффективно, чем при традиционных методах поиска.

Гипертекст (нелинейный текст) – это организация текстовой информации, при которой текст представляет собой множество фрагментов с явно указанными ассоциативными связями между этими фрагментами. Его можно рассматривать как своеобразную базу данных, которая организуется в виде открытой, свободно наращиваемой и изменяемой сети, узлы которой (линейные тексты) соединяются самим пользователем. От обычной базы данных гипертекст отличается прежде всего тем, что в нем отсутствуют априорно заданные ограничения на характер связей (как, например, в иерархических структурах).

В самом общем виде взаимодействие пользователя с гипертекстовой системой заключается в следующем. Пользователь читает на экране компьютера некоторый текст и имеет возможность выполнять ряд определенных в системе действий в зависимости от того, какие у него возникают ассоциации от чтения текста на экране.

Гипертекстовые технологии широко используются в различных прикладных системах:

в настольных издательских системах – для создания документов большого объема со свойствами гипертекста (т. е. с системой ссылок);

в системах управления документами (СУД) – например, для сведения в один итоговый документ информации, содержащейся в разнородных документах;

в системах подготовки электронных документов, позволяющих составлять гипертекстовые документы с возможностью осуществления навигации.

В настоящее время гипертекстовые технологии развиваются в нескольких направлениях.

Одно из них концентрируется на представлении в узлах гипертекста разнородной, но семантически связанной информации – текста, рисунков, графики, фотографий, видео, звука.

Важным направлением развития гипертекстовых технологий является аналитическая обработка информации. Например, смысловое упорядочивание документов, обеспечивающих решение многоэтапной задачи или разработку сложных проектов.

Наиболее перспективным направлением являются технологии организации информационных ресурсов, распределенных в сетях различных типов (локальных, корпоративных, глобальных и др.).



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: