Поиск документов

Хранящиеся документы составляют документный массив, в котором место каждого документа должно быть четко определено и закреплено. Документы должны быть заклассифици-рованы, должны быть выделены поисковые признаки каждого из них, что необходимо для поиска документов и является базой для создания информационно-поисковой системы (ИПС).

Автоматизированные и ручные ИПС дают возможность найти необходимый документ в любом структурированном массиве.

Под поиском понимается совокупность логических и технических операций, имеющих конечной целью нахождение документов, сведений о них, фактов, данных и т.п. в информационно-поисковом массиве. Информационно-поисковый массив представляет собой упорядоченную совокупность поисковых образов документов вместе с адресами их хранения. Примерами информационно-поискового массива могут служить каталоги библиотек, компьютерные базы данных.

В зависимости от применяемой технологии различают ручные и автоматизированные ИПС. В ручных (карточных) ИПС поиск происходит по краткому формализованному описанию документов на карточках. В зависимости от принятого принципа организации карточек в ИПС на первый план выходят разные признаки документа — классификационный шифр, инвентарный номер, предметная рубрика, Ф.И.О. автора и т.д. Карточки в картотеке отделены друг от друга разделителями, на которых проставлены либо шифры в цифровой последовательности, либо буквы алфавита. За разделителями и собираются карточки, содержащие идентификационные признаки документов, имеющие указанные признаки.

Ручные ИПС построены по линейному принципу. Это означает, что поиск можно проводить лишь по одному признаку, главенствующему в данной поисковой системе, например, по содержанию. Чтобы произвести многоаспектный поиск, нужны вспомогательные средства, представляющие информационно-поисковый массив, перестроенный по ряду других признаков, например, алфавитно-предметному, хронологическому, нумерационному и т.д. Таким образом, для эффективного поиска ведением одной картотеки не ограничиться. Необходимо дополнение в виде еще нескольких картотек, в которых карточки на одни и те же документы будут расположены в другой последовательности и за другими разделителями.

Совместить несколько вариантов поиска возможно только в автоматизированных ИПС. Автоматизированный документный поиск может быть организован на основе различных технологий: по ПОД, по полному тексту документа, по

гипертекстовым ссылкам и др. Поиск по ПОД осуществляется аналогично в ручных и автоматизированных ИПС, только идентификацию документа по поисковым признакам производит компьютер. Поиск по полному тексту документа основан на формализации текста, переводе его в машиночитаемую форму. Обработка текста предполагает выделение дескрипторов и составлении тезауруса — перечня дескрипторов, проранжированных по частоте употребления. Тексты документа хранятся в памяти компьютера. А их поиск и вывод осуществляется в соответствии с поисковым предписанием. Предписание имеет вид логического произведения некоторого множества ключевых слов — дескрипторов. Документ считается отвечающим на информационный запрос и подлежит выдаче, если в нем одновременно содержатся все ключевые слова поискового предписания.

И наиболее сложная технология — гипертекстовая. Основная идея гипертекстовых технологий состоит в том, что поиск документной информации происходит с учетом множества взаимосвязей, имеющихся между документами, как логических, так и ассоциативных. Доступ к информации осуществляется не путем последовательного просмотра текстов, а путем движения от фрагмента одного текста к фрагменту другого. Движение осуществляет сам пользователь и оно называется «навигация».

В зависимости от того, какую форму имеет информация в процессах хранения и поиска, ИПС подразделяются на документные и фактографические. Документные ИПС выдают в результате поиска сами документы, их копии или же адреса хранения. Фактографические ИПС помогают отыскать отдельные сведения, факты из текста документов. Между документным и фактографическим поиском нет принципиальной разницы. По способам поиска оба вида идентичны. Отличия имеются в содержательной стороне объекта поиска: в первом случае ищут документ или сведения о нем, а во втором — факт, отраженный в документе. Характерной особенностью всех документных ИПС является то, что извлечение нужной информации из найденного документа осуществляет сам потребитель. Фактографические ИПС предназначены для поиска конкретных фактов, сведений, данных в ответ на фактографические запросы

без обращения потребителя к документам, в которых они содержатся. Промежуточное место занимают документно-фактографические ИПС, результатом поиска в которых являются запрашиваемые факты, сведения, данные со ссылкой на документ, в котором они зафиксированы.

Сам поиск представляет собой творческий процесс, несмотря на то, что многие его стороны жестко формализованы. Этапы поиска следующие:

• формулировка запроса;

• анализ запроса и составление поискового предписания — перевода запроса с естественного языка на язык формальных признаков документа (библиографического описания, классификационного индекса, предметной рубрики, перечня дескрипторов и т.д.);

• реализации поискового предписания в информационно-поисковом массиве и выборка релевантных документов, т.е. соответствующих данным формальным признакам;

• выбор из релевантных документов пертинентных, т.е. соответствующих реальным потребностям пользователя.

Для быстрого поиска нужных документов необходимо создание единой системы классификации документов с общими для всей системы правилами индексирования по этой системе, едиными правилами расстановки и хранения первичных документов, взаимосвязь со справочным аппаратом. Всякий раз, когда возникает потребность произвести поиск, пользователю необходимо решить следующие проблемы: определить цель поиска, отводимое время на поиск, материальные ресурсы, используемые при поиске, необходимые точность и полноту поиска. Перечисленные факторы оказывают значительное влияние на результаты поиска.

Любой поиск - довольно трудоемкое и дорогое мероприятие. Чем выше точность и полнота поиска, т.е. чем больше документов найдено и чем более они релевантны, тем дороже и дольше сам поиск. Поэтому цель поиска должна определить оптимальную полноту и точность (большую или меньшую), соответственно и задействованные материальные ресурсы и затрачиваемое время.

Под стратегией поиска понимается организация, подго-1ка и использование имеющихся материальных ресурсов для остижения поставленной цели в отводимое на поиск время. В 'Зависимости от этого осуществляется решение тех или иных задач и устанавливается последовательность выполняемых мероприятий. Стратегия поиска конкретного документа зависит От наличия исходных данных о нем. Если известен автор доку- ' мента, то проще всего документ разыскать в алфавитном каталоге или авторском вспомогательном указателе к библиографическим пособиям. Если же автор не установлен, а известно Лишь общее содержание, то поиск следует начинать с установления соответствующего шифра систематической классификации, а затем просмотра всех документов, зашифрованных аналогично в ИПС. Всевозможные варианты поиска документов разрабатывает такое научно-практическое направление, Как библиографическая эвристика. Принципы, закономерности, технологии автоматизированного поиска документов и Содержащейся в них информации — основная задача такой научной дисциплины, как информатика.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: