Тема 4. Общие принципы построения информационно-поисковых систем. Справочно-правовые системы (СПС). Обзор рынка СПС

4.1. Модели организации хранения и поиска документов. Иерархическая модель и гипертекстовая модели, их недостатки. Информационно-поисковые системы, принципы их взаимодействия с пользователем.

4.2. Основные принципы информационного поиска. Предметные указатели, индексирование, термины индексирования, словари, индексы.

4.3. Предметное индексирование и механизм поиска.

4.4. Стратегии поиска.

4.5. Интерфейс системы. Системы рубрикационного типа. Системы структурно-логического типа.

4.6. Информационно-поисковые системы глобальных сетей.

4.7. Понятие справочно-правовых систем, их назначение и преимущества.

4.8. Обзор рынка справочно-правовых систем в России.

4.9. Критерии качества СПС.

4.10. Основные свойства информационных банков СПС.

4.1. Существует две основных модели организации хранения и поиска документов:

1) иерархическая модель;

2) гипертекстовая модель.

Использование иерархической модели подразумевает многоуровневую рубрикацию информационных ресурсов. Для выбора пути к нужному документу используются описания, составленные службой поддержки данной системы.

Гипертекстовая модель позволяет связывать документы ссылками, которые располагаются непосредственно в тексте.

Эти две модели имеют очевидные недостатки, так как, и многоуровневая рубрификация и постановка ссылок, выполняется специалистами, объем обработанных таким образом документов не может быть очень большим. По этой же причине страдает актуальность описания массива документов. Помимо этого, связанные документы ограничены какой-либо одной предметной областью, о которой, к тому же, у пользователя системы может быть иное представление, чем у составителя рубрикатора. И, наконец, для нахождения необходимого документа пользователю таких систем потребуется просмотреть множество документов, полезной информацией в которых будут только ссылки на другие ресурсы.

Эти проблемы становятся особенно острыми при больших объемах информации, высокой скорости их обновления и высокой разнородности потребностей пользователей. Помочь в решении таких проблем призваны информационно - поисковые системы (ИПС). Такие системы, однажды созданные, могут работать автономно. Принцип их взаимодействия с пользователем заключается в выдаче списка указателей на документы, удовлетворяющие запросу. Этот список может быть отсортирован по релевантности (степени соответствия документа запросу). Таким образом, ИПС может обеспечить очень быстрый поиск необходимого документа — при том, что от пользователя требуется лишь ввести запрос.

Первые информационно-поисковые системы были созданы достаточно давно. Большинство открытий в этой области приходится на 70-е и 80-е годы. Сейчас, с развитием Интернета, количество пользователей этих систем исчисляется миллионами, а в скором будущем будет исчисляться миллиардами. Так же стремительно растет количество документов, хранящихся в Интернете, что ставит все более сложные задачи перед разработчиками ИПС.

4.2. Основные принципы информационного поиска были сформулированы еще в первой половине ХХ века. Между 1939 и 1945 годами У. Е. Баттеном была разработана система для отыскания патентов. Каждый патент классифицировался в соответствии с понятиями, к которым он имел отношение. Для каждого понятия, использовавшегося в системе, была создана 800-позиционная перфокарта. При регистрации в системе нового патента находились карты, соответствующие тем понятиям, которые в нем рассматриваются, и в позиции пробивались номера патента. Чтобы найти патент, в котором рассматривается одновременно несколько понятий, необходимо было совместить карты, соответствующие этим понятиям. Номер нужного патента определялся из позиции просвета.

Основные принципы информационного поиска с тех пор не изменились. На примере уже этой ИПС видно, как происходит процесс поиска. Во-первых, должен быть создан массив указателей на информационные ресурсы. Указатель (index) содержит в себе некое свойство документа и ссылки на документы, этим свойством обладающие. Указатели могут быть различных видов. Широко распространен, например, авторский указатель. Такой указатель позволяет получить ссылки на работы интересующего нас автора. Также указатели могут быть составлены и по другим атрибутам документа. В системе предметный указатель, то есть документы классифицировались по понятиям (предметам), которые в них затрагиваются.

Процесс создания указателей на документы называется индексированием, а термины, использующиеся для индексирования, называются терминами индексирования. В случае с авторским указателем роль терминов индексирования будут выполнять фамилии авторов хранящихся в фонде работ. Совокупность используемых терминов индексирования называется словарем. Массив указателей, полученный после индексации информационных ресурсов, называется индексом (Index database).

4.3. После создания индекса к нему обращаются посредством запросов. Так как процесс поиска заключается в сопоставлении запроса пользователя с имеющимися данными. Полученный запрос также должен быть переведен на язык индексирования, в индексе выполняется «поиск соответствующих запросу документов, пользователю выдается список ссылок на подходящие ресурсы».

Для повышения скорости индексирования и поиска словарь и индекс должны быть упорядочены по системе, наиболее отвечающей задачам поиска в данной предметной области.

Когда говорят об информационно-поисковой системе, подразумевают, что она использует предметный указатель. Предметный указатель позволяет отыскивать документы, касающиеся некоего предмета». Для составления предметного указателя анализируется содержание документа и определяется «предмет» или «предметы», о которых в документе идет речь. Затем названия этих предметов переводятся на информационно - поисковый язык (ИПЯ). Таким образом, мы получаем поисковый образ документа (ПОД). Проиндексировав (создав поисковые образы) все информационные ресурсы, мы получаем то, что принято называть индексом (index database) — основной массив данных ИПС.

Так как процесс поиска заключается в сопоставлении запроса пользователя с имеющимися данными, полученный запрос также должен быть переведен на ИПЯ. После сопоставления переведенного на ИПЯ запроса и поисковых о6разцов документов, пользователь получает список ссылок на документы, которые соответствуют, по мнению системы, его запросу.

Для повышения эффективности поиска словарь, используемый системой, должен быть контролируемым, то есть он должен быть организован таким образом, чтобы полнота и точность поиска была оптимальной. Очевидно, что организация словаря зависит от многих факторов — предметной области, в которой будет использоваться ИПС, характера интересов пользователей, степени их подготовки и т. д.

Для улучшения результатов поиска необходимо определить степень специфичности терминов, используемых при индексации. Принято использовать два принципа — использование наиболее специфического термина, соответствующего объему и содержанию отражаемого понятия, и избыточное индексирование.

Под избыточным индексированием понимается дополнение поискового образа терминами, связанными с основным. При этом могут использоваться термины, связанные как с основным отношением обобщения или спецификации, так и ассоциативной связью. Дополнение поискового образа терминами с ассоциативной связью может увеличить полноту поиска, но неизбежно понижает его точность.

Недостатком избыточного индексирования является также увеличение объема поисковых образов. Для решения этой проблемы во многих ИПС используется избыточное индексирование не документов, а запросов.

Использование предметного индексирования не исключает использования при создании поискового образа атрибутов документа. Это могут быть такие атрибуты, как данные об авторе, дата публикации, язык публикации и т. д.

4.4. Точность и полнота поиска зависят не только от характеристик самой ИПС, но и от того, как создается запрос. Идеальный запрос может быть составлен пользователем, в полном объеме знакомым с той предметной областью, которая его интересует, а также с используемой ИПС. Остальные же пользователи вынуждены довольствоваться или низкой точностью поиска, или низкой полнотой. Для повышения качества поиска можно использовать различные методы. Наиболее употребляемый из них — использование логических операторов AND. OR, NQTT.

Использование логических операторов — довольно простой способ повысить ревалентность выдаваемых документов, но он имеет и свои недостатки.

Главный из них — плохая масштабируемость. Применение оператора AND может сильно сузить выдачу, а оператора QR - сильно расширить.

Степень точности и полноты поиска зависит от того, насколько общие термины использовались при формулировке запроса. Может быть неверным использование как наиболее общих терминов (возрастает уровень информационного шума), так и слишком специфичных терминов (снижается полнота поиска). Использование слишком специфичных терминов может быть чревато еще и тем, что в словаре ИПС этого термина может не оказаться. В общем виде процедура поиска является процедурой интерактивной, то есть за этапом выдачи результатов поиска следует коррекция запроса, поиск по этому запросу и т. д. Коррекция запроса происходит исходя из количества полученных документов и их релевантности, и может выполняться как пользователем, так и самой информационно-поисковой системой.

В зависимости от соотношения полноты и точности найденных документов пользователь может сузить или расширить область поиска, перейдя к более общим или, наоборот, более специфичным терминам, а также использовав родственные понятия. В случае поиска по нескольким терминам такая коррекция области поиска может происходить по одному из нескольких терминов, что позволяет изменять эту область достаточно плавно.

Может оказаться полезным знание пользователя о наличии определенно релевантных документов. Не найдя их в списке найденных документов, область поиска надо расширить.

Коррекция запроса системой информационного поиска происходит на основании анализа документов, помеченных пользователем как наиболее точно отвечающих его потребности. В таком случае при следующем поиске система ищет те документы, в которых, помимо заданных в первоначальном запросе, содержатся термины, встречающиеся в документах, отмеченных пользователем.

Улучшить результаты поиска можно различными способами, если функции для этого предоставляются интерфейсом информационно-поисковой системы.

4.5. Важным Фактором, во многом определяющим эффективность поиска, может быть вид представления информации в программе, то есть интерфейс. По форме диалога, способу задания условия отбора и механизму поиска рассматриваемые программные средства можно разделить на два класса:

1) системы рубрикационного типа;

2) структурно-логические системы.

Первые реализуются интерфейсом в виде иерархических последовательно раскрывающихся списков, через которые обеспечивается доступ к тематически связанным группам документов. Раскрывая очередную рубрику и перемещаясь, таким образом, по тематической иерархии, пользователь уточняет предметную область и увеличивает степень точности соответствия выдаваемых документов и информационной потребности. При таком решении предопределенность соотнесения документов с отдельными рубриками компенсируется логичностью естественно-научной классификационной схемы, заменяющей пользователю путеводитель.

Структурно-логические методы формирования запроса обычно используются для работы с базами данных структурированной информации, когда каждый документ состоит из многих информационных полей, возможно, разного типа. Критерий отбора в этом случае строится как логическая комбинация простых, сводящихся к проверке условия присутствия или отсутствия в документе, слов (имен собственных или имен понятий, определяющих предмет поиска).

При составлении запроса к системе используют либо «меню-ориентированный» подход, либо командную строку. Первый позволяет ввести список терминов, обычно разделяемых пробелом, и выбрать тип логической связи между ними. Логическая связь распространяется на все термины. Многие ИПС позволяют сохранять запросы пользователя — в большинстве систем это просто фраза на ИПЯ, которую можно расширить за счет добавления новых терминов и логических операторов. Но это только один способ использования сохраненных запросов, называемый расширением или уточнением запроса. Для выполнения этой операции традиционная ИПС хранит не запрос как таковой, а результат поиска — список идентификаторов документов, который объединяется или пересекается со списком, полученным при поиске документов по новым терминам.

4.6. Информационно-поисковые системы глобальных сетей имеют отличия, обусловленные как характером сети, так и особенностями работы пользователей такой системы. Рассмотрим основные особенности использования ИПС в глобальной сети на примере сети Интернет. Схематично ИПС для Интернета выглядит так, как показано ниже

Запрос Client (клиент) на этой схеме — это программа просмотра конкретного информационного ресурса. Такая программа обеспечивает просмотр документов WWW, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей Usenet.

В свою очередь, все эти информационные ресурсы являются объектом поиска информационно-поисковой системы.

User interface (пользовательский интерфейс) — способ общения пользователя с поисковым аппаратом: системой формирования запросов и просмотра результатов поиска.

Search engine (поисковая машина) — служит для трансляции запроса на информационно-поисковом языке, в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю.

Index database (индекс базы данных) — индекс, который является основным массивом данных ИПС и служит для поиска адреса информационного ресурса.

Queries (запросы пользователя) — сохраняются в его (пользователя) личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно запоминать запросы, на которые система дает хорошие ответы.

Index robot (робот индексирования) — служит для просмотра данных в Интернете и поддержания базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети.

WWW sites — это весь Интернет, или, точнее, информационные ресурсы, просмотр которых обеспечивается программами просмотра.

Как мы видим, источником информации о состоянии информационных ресурсов сети является робот-индексировщик. Это программа, которая по определенному алгоритму «заходит на различные страницы, «читает» их и индексирует.

Индекс поисковых систем Интернета обновляется с периодичностью около недели. Отсюда видно, что в индекс поисковой системы не могут попасть материалы, например, периодических изданий, так как выходят они заведомо чаще, чем обновляется индекс.

Еще одна проблема заключается в том, что не все документы хранятся в виде файлов HTML, с которыми роботу работать легче всего. Если информация хранится в другом формате, может сложиться ситуация, когда адрес страницы, выдаваемой пользователю, содержит параметры, которые робот не знает, и, следовательно, он не может ее идентифицировать.

Объем информации, опубликованной в Интернете, приводит также к ограничению количества терминов, которыми индексируется документ. Современные ИПС в Интернете используют порядка 100 терминов для индексации документа. Выбор терминов, используемых для индексации, зависит от реализации данной системы. Чаще всего первым критерием является отношение частоты употребления термина в документе к частоте употребления этого термина во всех ранее проиндексированных документах. То есть наибольший вес присваивается тем терминам, которые наиболее часто встречаются в данном документе и наиболее редко — во всех остальных проиндексированных документах. Термины, которые используются в очень большом количестве документов, при индексировании не используются совсем.

Для определения терминов индексирования, используемых для создания поискового образа, робот может также использовать разметку индексируемой страницы. И в индексе присваивать наибольший вес термину, используемому, например, в заголовке. Автор информационного ресурса также может повлиять на индексацию собственной страницы, указав роботу, какие термины надо использовать для индексирования. Но многие поисковые системы отказались от использования описаний ресурсов, представленных авторами. Это было сделано по причине недобросовестности некоторых авторов, которые использовали для описания своих страниц термины, наиболее часто встречающиеся в запросах.

Так как на запрос могут быть выданы ссылки на сотни ресурсов, необходимо предоставить пользователю отсортированный список. Наиболее часто используется сортировка по релевантности. Она происходит по тем же принципам, что и отбор терминов, применяющихся при индексировании.

Как уже отмечалась ранее, произвести точный поиск тем сложнее, чем шире круг потребностей пользователей системы. В глобальной сети эта проблема принимает глобальный же характер.

4.7. Принятие обоснованных решений в сфере как экономики, так и политики невозможно без обладания достаточным объемом правовой информации. Задачу удовлетворения потребности в своевременном предоставлении необходимого объема правовой информации решают различные средства массовой информации (СМИ). В этой области конкурируют как традиционные СМИ, так и справочно-правовые системы (СПС). По-настоящему эффективная СПС может быть создана только с применением современных информационных технологий. Созданная таким образом СПС называется компьютерной.

Компьютерная справочно-правовая система — это программный комплекс, включающий в себя массив правовой информации и инструменты для работы с ним. Эти инструменты могут позволять производить поиск документов, формировать подборки документов, выводить документы или их фрагменты на печать.

Преимущества компьютерных СПС очевидны. Это и доступность информации, и удобство работы с нею. Проблема же, присущая таким системам, — недостаточная оперативность — может быть решена с помощью глобальной сети Интернет.

4.8. На рынке справочно-правовых систем в России работает большое количество фирм, как разрабатывающих собственные программные комплексы, так и обслуживающих существующие. Наиболее известны следующие продукты таких фирм (по данным АО «Консультант Плюс»):

«Консультант Плюс» (АО «Консультант Плюс»);

«ГАРАНТ» (НПП «Гарант-Сервис»);

«Кодекс» (Центр компьютерных разработок).

Системы, созданные государственными предприятиями для обеспечения потребностей в правовой информации государственных ведомств:

«Эталон» (НЦПИ при Министерстве юстиции РФ);

«Система» (НТЦ «Система» при ФАПСИ). Кроме того, на российском рынке представлены такие системы, как:

«ЮСИС» (фирма «Инталекс»);

«Референт» (ЗАО «Референт-Сервис»);

«Юридический мир» (издательство «Дело и право»);

«Ваше право» и «Юрисконсульт» (фирма «Информационные системы и технологии»);

«1С: Кодекс», «1С: Гарант», «1С: Эталон» (компания «1С»);

«Законодательство России» (Ассоциация развития банковских технологий) и некоторые другие.

Различные продукты могут существенно различаться не только по задачам, решаемым с их помощью, но и по качеству.

4.9. Качество СПС зависит как от качества предоставляемой информации, так и от качества инструментов, используемых для работы с ней. Применение самых последних компьютерных технологий не поможет, если в СПС не содержится полной правой информации или если информация обновляется с недостаточной периодичностью. И наоборот, СПС, содержащая даже самую полную и оперативно обновляющуюся информацию, не будет достаточно эффективна, если не предоставлены качественные инструменты для обработки этой информации.

Таким образом, основными параметрами, позволяющими определить качество содержания информационной базы, являются:

1) полнота информации;

2) достоверность информации;

3) оперативность обновления информации.

Параметры, характеризующие качество программной оболочки:

1) поисковые возможности системы;

2) средства актуализации информации;

3) дополнительные сервисные функции.

Оценка полноты, достоверности и оперативности обновления информации основывается на количественных показателях. Оценка же качества юридической обработки поступающих в информационный банк документов достаточно субъективна.

Без юридической обработки СПС является всего лишь электронным аналогом бумажных изданий. Ее цель — систематизация документов для повышения эффективности их дальнейшего использования.

Юридическая обработка обычно состоит из следующих основных этапов:

1) классификации документов;

2) выявления взаимосвязей между различными документами;

3) составления примечаний к документу.

Классификация документов предназначена для последующего их поиска по некоторым признакам. Это могут быть как формальные признаки, такие как выходные данные, так и неформальные — темы, которые рассматриваются в этих документах. Классификация производится на основании классификатора данной системы. В общем случае классификатор — это иерархическая структура, содержащая все понятия, используемые для описания документов, входящих в информационную базу.

Качество последующей юридической обработки документа, а также эффективность его поиска напрямую зависят от корректности классификации документа в системе.

Выявление взаимосвязей документа позволяет создать список документов, его дополняющих. Таким образом, пользователю предоставляется возможность максимально полно ознакомиться с интересующей его темой, начав работу всего лишь с одним документом.

В качестве примечаний к документу обычно используются ссылки на связанные с ним информационные ресурсы, данные о текущем статусе документа, комментарии юриста.

4.10. Основные свойства информационных банков СПС:

1. Полнота и достоверность. Полноту информационного банка субъективно оценивает пользователь. Поэтому разработчиками выпускаются несколько различных по полноте информационных банков. Разработчики СПС заключают договоры с федеральными и другими органами власти, в соответствии с которыми СПС предоставляются все тексты принимаемых документов. Во избежание ошибок, тексты предоставляются на бумажных носителях. Затем их переводят в электронную форму, выявляются и исправляются ошибки с помощью программ и корректоров;

2. Оперативность обновления информации. Включение документов в информационный банк может происходить через 1-2 дня после их принятия. Доставка пополнения до регионального сервисного центра производится ежедневно. Доставка до пользователя может производиться ежедневно, раз в неделю или в другие сроки на машинных носителях или по электронной почте;

3. Качество обработки информации и удобство поиска. Классификация документов по выходным данным, по теме и другим признакам влияет на удобство их поиска. Объемные документы содержат оглавления. Выявление взаимосвязей между документами так же удобно для поиска информации. Примечания, составленные разработчиком, могут содержать комментарии, данные о текущем статусе и изменениях действия документа и т. д. Разрабатываются календари, обзоры, подбирается и представляется в удобном виде справочная информация.

Школы менеджмента

Феодальная раздробленность. Владимиро-Суздальское княжество, Галицко-Волынское княжество, Новгород

Гончарова О. М. Поэтическое наследие Ломоносова и русская поэзия XIX – XX вв.

Основные направления поэзии серебряного века

Экономическое развитие Великобритании в XIX-начале XX веков

Экономическое развитие Германии в XIX – начале XX века

Самый сильный аргумент, почему эволюция человека не могла быть