Говорят, что половина знаний состоит в том, чтобы знать, где искать знания. Где и как искать знания? Вопрос непростой и поэтому не случайно теория и практика информационного поиска ищет ответ на этот вопрос. В профессиональной литературе не перестает обсуждаться сложная проблема, которая, как нам кажется, лежит в русле не автоматизации, а в области прикладной лингвистики (языкознания).
В начале об определении понятий информационный поиск, библиографический поиск. В справочниках, толковых словарях, в нормативных документах эти понятия интерпретируются по-разному, и приводимые определения весьма широки и диффузионны. Многообразие определений вносит затруднение в определение объемов научно-информационной, справочно-библиографической и библиотечной деятельности. Это влияет на трудоемкость и стоимость результата научно-информационной деятельности.
В словаре русского языка С.И. Ожегова поиск определяется, как «... действие ищущего, розыски кого, чего-нибудь, способ разведки. Выражение высокой положительной или отрицательной оценки.» Там же «поиск - обнаружить, сделать явным, видимым, открытым, очевидным».
|
|
В толковом словаре по информатике (1991 года) «поиск - совокупность операций, методов, процедур, результатом выполнения которых является отбор данных, хранящихся в запоминающем устройстве».
«Поиск - процедура систематического выявления записей в массиве с целью их сопоставления с критериями поиска, сформулированными в запросе». (Мидоу Ч., 1970 г.). В другом издании Ч. Мидоу (1977) пишет, что «... поиск как один из терминов, значение которого вызывает разногласия среди специалистов-практиков в области информационного поиска, является само понятие информационный поиск. Если необходимо получить ответ на какой-либо конкретный (реально существующий) вполне точный и вещественно определенный, какими бывают только реквизиты, в отличие от абстрактного, отвлеченного, «то в значительном большинстве библиотек означает просмотр каталога, который дает указания на соответствующие документы (библиографические описания). Задача библиотек в этом случае считается выполненной». На самом же деле это только первый этап поиска конкретных документов, которые потенциально могут подозреваться на предмет присутствия в них сведений, необходимых потребителю информации.
В энциклопедии кибернетики (1975 г.) «поиск» рассматривается как последовательность формализованных операций, с целью отыскания документов, содержащих необходимую информацию с последующей выдачей самих документов, их копий или с целью выдачи фактографических данных, представляющих собой ответ на запрос». Понятие поиск в энциклопедии кибернетики наполняется новым содержанием, в частности, в первоначальной части поиск определяется как документальный, во второй части как фактографический.
|
|
Толкование этих двух понятий в терминологическом словаре по библиотечному делу и смежным отраслям науки (1995 г.) определяется: «документальный поиск - поиск соответствующих информационному запросу документов; фактографический поиск - информационный поиск, объектами которого являются записи содержащие описание фактических данных, отражающих действительное состояние объекта, события, процесса, т.е. содержащих фактографию, описание фактов без их анализа, обобщения, освещения». Интерпретация понятия поиск, приводимая в энциклопедии кибернетики сыграла определяющую роль для классификации информационно-поисковых систем (ИПС). Поиск информации в документальных (библиографических) ИПС осуществляется с помощью справочно-информационного фонда, систематизированного и снабженного справочно-поисковым аппаратом (библиографические пособия, каталоги, картотеки, специализированные каталоги и т.п.).
Поисковый образ документа в документальных ИПС представлен, главным образом, библиографическим описанием. Библиографическое описание документа может сопровождаться аннотацией, рефератом, предметными рубриками, классификационными индексами, авторским знаком, а также сиглами библиотек, служб информации, где хранится документ.
Понятие «факт» дало название целому классу ИПС - фактографических, Как уже было сказано, основное отличие фактографических ИПС от документальных заключается в результатах информационного поиска, отличает их и структура организации информационных массивов. В документальных ИПС при информационном анализе документов особое внимание сосредотачивается на поиске и выделении тех элементов, которые позволяют вести поиск любого документа по его адресу или содержанию, В фактографических ИПС элементарными единицами информации являются реквизиты - обязательные данные, установленные законом или нормативно-технической документацией (ГОСТами, ТУ, РД).
Реквизиты отражают определенные научные, технические, экономические свойства процессов, объектов и являются логически неделимыми элементами.
Реквизитам присуще два свойства, весьма важные с точки зрения их обработки:
• отдельный реквизит может входить в состав различных единиц информации;
• отдельно взятый реквизит не может полностью характеризовать объект, процесс, явление;
Каждый реквизит характеризуется именем, значение 1 типом. Совокупность этих характеристик образует форм; реквизита. В зависимости от характера отображаемого им; свойства реквизиты делятся на: реквизиты-признаки и реквизиты-основания.
Реквизиты-признаки отражают качественные свойства объекта, процесса или явления. Реквизиты-признаки, как правило, записываются в алфавитном, алфавитно-цифровом виде. Они являются основой для логической обработки составных единиц информации. С реквизитами-признаками, как единицами информации, можно проводить не только процедуры поиска, сортировки, выборки, группировки, но и математические действия.
Например, в качестве реквизитов-признаков копировального аппарата для изготовления печатных форм можно выделить следующие реквизиты-признаки: страна-изготовитель; производительность печатных форм/час; размер бумаги (мм); размер оттиска (мм); напряжение (Вт); частота (Гр); потребляемая мощность (КВт); габариты (мм); масса (кг); цена (руб.).
Как видно из приведенного примера, перечислены качественные характеристики - реквизиты-признаки копировального аппарата для изготовления печатных форм. Количественные характеристики, которыми описываются реквизиты-признаки, выражаются цифрами. Для исчерпывающего описания объекта, процесса необходима некоторая совокупность реквизитов, описывающих его качественные и количественные свойства, называемая сообщением. Каждое сообщение имеет определенную форму. Формы сообщений объединяют множество реквизитов. Частным случаем сообщения является показатель.
|
|
Значимость подробного изложения элементов описания документов и реквизитов увеличивается, когда речь идет о подготовке информационных продуктов и услуг для информационной поддержки маркетинговой деятельности и функционирования информационных поисковых систем.
Значимость подробного изложения об элементах описания документов и реквизитов приобретает особое значение когда идет речь о подготовке информационных продуктов и услуг по фактографическим запросам. Информационная поддержка маркетинговой деятельности связана с такими формами запроса, где содержанием ответа являются сообщения: где?, кто?, когда?, что?, сколько?, почем?.
В этом случае ответами будут являться: где? - в каком месте?, кто? - поставщик, покупатель?, когда? -- в какое время?, что? - какая продукция?, сколько? - как много?, почем? - какова цена?.
Ответы на эти вопросы призваны давать фактографические и информационно-поисковые системы, которые располагают фактографическими базами данных. Такими информационно-поисковыми системами являются:
• Информационная система федерального уровня о товарах и услугах;
• Информационная система федерального уровня о почтовых и связных реквизитах и других показателях;
• Информационная система регионального уровня о товарах и услугах;
• Информационная система регионального уровня о почтовых и связных реквизитах и других показателях;
• Информационные межотраслевые системы о новых информационных технологиях и рыночных отношениях;
• Телекоммуникационные информационные системы «Рынок товаров и услуг региона» и др.
|
|
Федеральная интегрированная база данных «Контрагент-М»; Владелец НИЛАУ; 125080, г. Москва, ул. Панфилова, 20, корп. 2, тел. (095) 158-48-84, 158-68-27, 195-91-25, Е-
mail: nilauarelay@mail.ru. WWW: mail.ru/ nilau.
Предоставляет следующую информацию:
• подробное описание продукции и услуг (характеристики, спецификации, изображения, условия поставки, цена);
• любая тематика продукции и услуги всех регионов для товаропроизводителей - бесплатное размещение рекламной информации;
• для потребителей - бесплатный доступ к описанию продукции и услуг по сети Интернет или СD-RОМ в региональных центрах;
• для федеральных и региональных органов государственного управления - помощь в информационном обеспечении.
Среди информационных систем федерального уровня заслуживают внимания система государственного регистра, которая располагает банком данных «Бухгалтерская отчетность», а также информационная система, которая имеет банк данных «Информструктура поддержки малого предпринимательства сферы информатизации и обеспечения рынка» и БД «Регионы России», которая включает не только информацию о реквизитах, но и подробную характеристику продукции. О базах данных, которыми располагают предприятия, организации, учебные заведения России можно узнать из каталога РОСИНФОРМРЕСУРСа «Базы данных России», 1999г.
Развитие маркетинговой деятельности стимулировало предприятия, организации, научные учреждения к созданию баз данных для документальных, фактографических, смешанных информационно-поисковых систем.
Частной инициативе нет другой альтернативы, и поэтому нужно, чтобы она находила поддержку у государства, прежде всего на путях создания нормативно-правового и методического обеспечения. На первом этапе становления рынка товаров информационная поддержка в виде ИПС с коммерческими БД в той или иной мере обеспечивает продвижение продукции на рынке, оказывает влияние на выбор производителей продукции, новых технологий, видов изделий.
Однако, анализ БД изданного «НИЦ РОСИНФОРМ-РЕСУРС», к сожалению, показывает, что усилия и средства, затраченные генераторами БД, не оправдывают тех надежд, которые были связаны с их ролью в развитии маркетинговой деятельности.
Из реквизитов БД нельзя получить сведений не только о модели изделия, но и группах продукции, не указаны виды документов, которые служили основанием для создания БД, не указано время создания, не сообщаются условия поставки и др. По названию БД нельзя определить класс информационно-поисковой системы.
Отмеченные недостатки, как нам кажется, могут быть устранены, если на местах подготовки регистрационных карт БД примут на себя ответственность региональные центры научно-технической информации, в задачу которых входило бы оказание методической помощи, широкая реклама БД, проведение курсов для лиц, занимающихся маркетинговой деятельностью.
Аналитико-синтетическая переработка документов. Анализ как метод исследования текстов документов состоит в том, что изучаемый текст расчленяется на составные элементы, каждый из которых затем рассматривается в отдельности как часть целого. Целью анализа является выделение ключевых слов, терминов, научных понятий, которые передают смысловое содержание документа. Выделенные лексические единицы используются для создания поискового образа документа. Обобщение информации, полученной в ходе информационного анализа текстов, в зависимости от характера и цели выполняемой работы, оформляется в виде более простых обобщений (библиографического описания, аннотаций, описания) или более сложных (библиографического указателя со сложной системой входов, реферативных журналов со вспомогательными указателями, научно-аналитических обзоров, систематизированных подборок фактов и т.п.).
Аналитико-синтетическая переработка информации - это преобразование документов с целью извлечения необходимых сведений, их оценки, сопоставления, обобщения. Аннотирование, реферирование, извлечение фактов и подготовка информационных продуктов и услуг составляет сущность переработки документов.
Основными видами результатов аналитико-синтетической переработки документов являются:
• библиографическое описание - совокупность библиографических сведений о документах, приведенных по установленным правилам (заголовок, заглавие, выходные данные, количественная характеристика и др.). Библиографическое описание как процесс переработки документа требует хороших знаний состава и видовой структуры первичных документов. Библиографическое описание непременно входит в состав любого библиографического пособия, информационного издания. По характеру включаемой информации и целевому назначению информационные издания подразделяются на библиографические, реферативные и обзорные. По материальной конструкции информационные издания подразделяются на книжные, журнальные, листовые, карточные. По срокам публикации на периодические и непериодические;
• аннотация - краткая характеристика документа, его части или группы документов с точки зрения назначения, содержания, формы. Аннотации делятся на справочные (отсутствует оценка аннотируемых документов) и рекомендательные, когда составитель аннотации стремится обратить внимание на тот или иной аспект, раскрывающий более полно содержание или личность автора документа. Как правило, рекомендательные пособия носят субъективный характер;
• реферат. В отличие от аннотации, в реферат включаются
основные фактические сведения, методы исследования, условия и время проведения эксперимента, определение целесообразности обращения к первоисточнику документа. В реферате описываются методы, с помощью которых получен результат. По целевому назначению реферат может быть общий и специализированный. По способу характеристики - конспективный и проблемно-ориентированный. По глубине свертывания - краткий и расширенный. По форме представления - анкетный, позиционный, табличный, телеграфного стиля, схематический. По методу изложения - реферат-экстракт, перефразированный, синтезированный. По способу подготовки - интеллектуальный и автоматизированный. По количеству охваченных источников - монографический и обзорный. По авторскому исполнению - автореферат и реферат, составленный другим лицом (референтом).
Индексирование систематизация, кодирование. В информационной технологии, которая представляет собой систему взаимосвязанных методов, способов и средств сбора, накопления, обработки, хранения, поиска и выдачи информации, особое место занимает такое понятие как «индексирование» или присвоение документу набора ключевых слов и кодов, служащих указателем содержания документа и используемых для его поиска. Возможны два способа индексирования - свободное (когда непосредственно из тек= ста документа извлекаются ключевые слова без учета всех видоизменений, их форм и отношения между ними) и контролируемое индексирование (когда в поисковый образ документа включаются только те слова, которые зафиксированы в словаре ключевых слов, где указаны их синонимические, родо-видовые и ассоциативные отношения). Обычно индексирование осуществляют опытные специалисты в области информационной технологии или специалисты данной области науки. Для уменьшения затрат времени и средств в настоящее время индексирование документов осуществляется в автоматизированном режиме. Различают статистические, пермутационные, библиографические и ассоциативные методы индексирования.
Статистические методы основаны на гипотезе о том, что частота употребления слова связана с его значимостью для смысла документа. Наряду с этим, существует также мнение, что информационная ценность редких слов выше, чем информационная ценность часто повторяющихся слов. Это должно учитываться при индексировании документов.
Пермутационное индексирование осуществляется словами из заглавия документа, путем перемещения слов заглавия в алфавитный словарь столько раз, сколько разных слов имеется в нем, при этом каждое ключевое слово помещается на свое место алфавита и сопровождается всем контекстом заголовка.
Библиографическое и ассоциативное индексирование. Библиографическое индексирование документа - для поиска информации в различных информационных массивах (каталогах, картотеках и др.) - особый вид кодирования, который используется в более широких целях. Ассоциативное индексирование осуществляется с использованием карт ассоциативных связей между ключевыми словами, полученных с помощью анализа частоты повторения сочетаний ключевых слов в текстах.
Систематизация - вид индексирования. Систематизация включает определение или составление классификационного индекса документа в соответствии с его содержанием по таблицам определенной системы классификации (УДК, МКИ, Указатель стандартов, Рубрикатор ГАСНТИ и др.)
В автоматизированных информационных сетях не меньшее значение, чем индексирование приобрело понятие «кодирование» - преобразование сообщения в код. Код -система условных, обычно сокращенных обозначений (слов, названий) текста, применяемых при обработке, хранении, передаче информации. Шифр - это тоже условные знаки, которые используются, главным образом, для секретного письма. Код, в отличие от шифра, представляет собой совокупность знаков, символов, которые используются, как правило, для сжатия, уменьшения физических объемов информации.
Кодирование информации преследует цели:
• обеспечить оперативную передачу информации по каналам связи пользователю;
• организовать так информационные массивы, чтобы они были доступны пользователю, поиск информации в массивах был бы не только оперативным, но и удобным для пользователя;
• увеличить информационную емкость носителя информации и наиболее рационально использовать долговременную и оперативную память;
• позволяет наиболее полно раскрывать содержание документа и получать пользователю релевантные документы по его запросам.
Индексирование (кодирование) в информационной технологии переработки документов находит широкое применение в информационных, библиотечных и вычислительных сетях