Дополнительные сервисные возможности

Поиск по специализированным классификаторам

Полнотекстовый поиск (автоматический поиск по словам из текста документа)

Поиск по реквизитам документа

Это наиболее простой, удобный и очевидный способ поиска. Под поиском по реквизитам понимается поиск по номеру, виду документа, принявшему органу, дате принятия и т.д. Удобство и простота реализации этого вида поиска обычно не вызывают ни у кого особых вопросов. Однако он применим только в тех ситуациях, когда точно известны реквизиты конкретного документа.

Основная проблема заключается в том, что в большинстве реальных ситуаций чаще всего требуется поиск документов без заранее известных точных реквизитов, только на основании общего смысла проблемы.

Этот вид поиска основан на автоматической обработке текста. При запросе на поиск тех документов, где встречается конкретное слово, автоматически происходит перебор всего массива документов и выбор всех тех документов, где это слово встречается. Существуют быстрые алгоритмы такого поиска, когда при первоначальном вводе каждого документа все встречающиеся в нем слова вносятся в общий словарь, и в дальнейшем при поиске по любому слову из словаря можно мгновенно получить список всех документов, где оно встречается.

Более того, на основе полнотекстового поиска могут быть реализованы различные способы формирования поисковых запросов. Простейшим запросом является следующий: найти все документы, содержащие одно слово, например БУХГАЛТЕР. Более сложным вариантом запроса является запрос на поиск всех документов, содержащих два слова, например ГЛАВНЫЙ и БУХГАЛТЕР. Если эти два слова соединены логическим условием И, то будут отобраны только те документы, где есть одновременно оба слова. Если указаны два слова, соединенные логическим условием ИЛИ, то будут отобраны документы, где есть хотя бы одно из этих слов. Такие логические выражения могут быть еще более сложными.

При формировании сложных запросов дополнительно может использоваться признак близости слов. В запросе ГЛАВНЫЙ И БУХГАЛТЕР может быть указано, что слова должны находиться РЯДОМ, например в пределах 2 (или 3) строк.

Основное преимущество полнотекстового поиска состоит в том, что он не зависит от субъективных мнений или ошибок специалистов-разработчиков и всегда по любому слову дает возможность получить полный и абсолютно точный список документов, где встречается искомое слово. Ничего не будет забыто и пропущено. Другими словами, на любой запрос можно получить ответ, подготовленный по понятному для пользователя правилу, не зависящему от субъективной позиции обработчика.

Но, конечно, у полнотекстового поиска имеются и свои недостатки. Во-первых, полученный список будет содержать много «шума», то есть те документы, где искомое слово используется не в нужном контексте и т.п. Во-вторых, не будут найдены те документы, где встречаются синонимы данного термина. Так, задав поиск по слову НЕСОВЕРШЕННОЛЕТНИЙ, невозможно автоматически получить те документы, где используется выражение ЛИЦО, НЕ ДОСТИГШЕЕ ВОСЕМНАДЦАТИ ЛЕТ. Эта проблема частично решается усложнением задаваемых поисковых выражений, но все равно трудно во всех случаях добиться такой же точности, как при заранее проделанной «вручную» экспертной обработке (см. следующий пункт).

Существует достаточно много разновидностей классификаторов. Так, можно считать, что описанный выше в п. 2.2 данного параграфа поиск документов по реквизитам также является поиском по классификатору. Такого рода классификаторы имеют жесткую структуру, не зависящую от субъективной точки зрения тех, кто обрабатывает информацию. Например, при поиске документа по его виду структура и состав соответствующего классификатора жестко и формально определены объективно существующими видами документов (закон, указ, письмо и т.д.).

Однако в этом пункте мы будем рассматривать другой вид классификаторов, структура которых (в отличие от упомянутых выше) существенно зависит от опыта и взглядов экспертов – обработчиков информации.

Общей чертой всех разновидностей поиска по этим классификаторам является то, что вся информация проходит предварительную обработку и рубрицируется. Это означает, что эксперт ставит в соответствие каждому элементу информационного массива (документу в целом или его части) определенный элемент классификатора, то есть таким образом указывается определенная рубрика. После такой обработки пользователь может выбрать интересующую его рубрику и получить всю подборку документов или их частей, которые были предварительно отобраны экспертом. Об этом подробно шла речь в п. 4.2 § 4 данной главы.

Чаще всего в основе таких классификаторов лежит предмет правового регулирования, «тема» документа. При этом классификатор представляет собой систему юридических понятий (рубрик, ключевых слов, дескрипторов), отражающих содержание актов, которые составляют информационный массив.

В зависимости от расположения рубрик классификаторы можно разделить на иерархические и алфавитные.

В первой разновидности классификаторов (к ним относятся классификаторы, о которых говорилось выше) рубрики расположены в иерархическом порядке, от общего к частному. Такое расположение рубрик более традиционно, оно напоминает оглавление книги и понятно абсолютному большинству пользователей. В разных базах данных используются различные классификаторы этой разновидности: Общеправовой классификатор отраслей законодательства (ОКОЗ), его модификации или другие независимые разработки.

Классификаторы второй разновидности составлены на основе специальных словарей, состоящих из юридических понятий, расположенных уже в алфавитном порядке (в частности, к этой разновидности классификаторов относятся ключевые слова, о которых шла речь в п. 4.3 предыдущего параграфа).

Каждая из этих разновидностей классификаторов (чаще вторая) может усложняться путем уточнения и увеличения количества юридических понятий, составляющих классификатор. Рубрики могут состоять из некоторого набора терминов и представлять собой описание определенной ситуации. Такие ситуации, как правило, очень многочисленны и требуют определенного поискового аппарата.

Основной проблемой при использовании для поиска документов специализированных классификаторов является то, что предварительная обработка документов происходит «вручную», то есть рубрицирование документов проводится конкретными специалистами компаний – разработчиков СПС. Разумеется, такая работа не может полностью исключать ошибок, допускает субъективные решения при рубрикации и т.п. Отметим, что основное преимущество этого поиска – точное попадание в необходимый документ или даже норму – одновременно является и потенциальным недостатком, так как «точная» ссылка может быть проставлена ошибочно. К тому же чем детальнее проводится рубрицирование, тем больше вероятность ошибок.

Программные технологии высокого уровня, кроме непосредственного поиска документов, обычно включают некоторые очень полезные сервисные инструменты. Отметим ряд возможностей, реализованных в системах КонсультантПлюс.

• Возможность создавать собственные постоянные подборки документов по какой-либо проблеме (так называемые папки документов). При этом поиск возможен как по всей базе, так и по конкретным папкам. Пользователи, работающие на различных компьютерах, могут обмениваться такими папками. Это позволяет организовать коллективную работу нескольких специалистов над общей проблемой.

• Возможность ставить закладки в тексте, что удобно при работе с большими документами.

• Наличие гипертекстовых связей между документами, позволяющих нажатием одной клавиши переходить из одного документа в другой.

• Экспорт документов в текстовый редактор Microsoft Word с уникальной возможностью конвертации текстовых таблиц в «раздвижные» таблицы редактора, готовые к заполнению.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: