Аналитико-синтетическая переработка документов

 

Говорят, что половина знаний состоит в том, чтобы знать, где искать знания. Где и как искать знания? Вопрос непростой и поэтому не случайно теория и практика инфор­мационного поиска ищет ответ на этот вопрос. В профессио­нальной литературе не перестает обсуждаться сложная про­блема, которая, как нам кажется, лежит в русле не автомати­зации, а в области прикладной лингвистики (языкознания).

В начале об определении понятий информационный по­иск, библиографический поиск. В справочниках, толковых словарях, в нормативных документах эти понятия интерпре­тируются по-разному, и приводимые определения весьма широки и диффузионны. Многообразие определений вносит затруднение в определение объемов научно-информацион­ной, справочно-библиографической и библиотечной деятель­ности. Это влияет на трудоемкость и стоимость результата научно-информационной деятельности.

В словаре русского языка С.И. Ожегова поиск опреде­ляется, как «... действие ищущего, розыски кого, чего-нибудь, способ разведки. Выражение высокой положительной или отрицательной оценки.» Там же «поиск - обнаружить, сде­лать явным, видимым, открытым, очевидным».

В толковом словаре по информатике (1991 года) «поиск - совокупность операций, методов, процедур, результатом выполнения которых является отбор данных, хранящихся в запоминающем устройстве».

«Поиск - процедура систематического выявления запи­сей в массиве с целью их сопоставления с критериями поиска, сформулированными в запросе». (Мидоу Ч., 1970 г.). В дру­гом издании Ч. Мидоу (1977) пишет, что «... поиск как один из терминов, значение которого вызывает разногласия среди специалистов-практиков в области информационного поис­ка, является само понятие информационный поиск. Если не­обходимо получить ответ на какой-либо конкретный (ре­ально существующий) вполне точный и вещественно опреде­ленный, какими бывают только реквизиты, в отличие от аб­страктного, отвлеченного, «то в значительном большинстве библиотек означает просмотр каталога, который дает указа­ния на соответствующие документы (библиографические описания). Задача библиотек в этом случае считается выпол­ненной». На самом же деле это только первый этап поиска конкретных документов, которые потенциально могут по­дозреваться на предмет присутствия в них сведений, необхо­димых потребителю информации.

В энциклопедии кибернетики (1975 г.) «поиск» рассмат­ривается как последовательность формализованных опера­ций, с целью отыскания документов, содержащих необходи­мую информацию с последующей выдачей самих документов, их копий или с целью выдачи фактографических данных, представляющих собой ответ на запрос». Понятие поиск в энциклопедии кибернетики наполняется новым содержанием, в частности, в первоначальной части поиск определяется как документальный, во второй части как фактографический.

Толкование этих двух понятий в терминологическом словаре по библиотечному делу и смежным отраслям науки (1995 г.) определяется: «документальный поиск - поиск соот­ветствующих информационному запросу документов; факто­графический поиск - информационный поиск, объектами кото­рого являются записи содержащие описание фактических дан­ных, отражающих действительное состояние объекта, события, процесса, т.е. содержащих фактографию, описание фактов без их анализа, обобщения, освещения». Интерпретация понятия поиск, приводимая в энциклопедии кибернетики сыграла определяю­щую роль для классификации информационно-поисковых сис­тем (ИПС). Поиск информации в документальных (библиогра­фических) ИПС осуществляется с помощью справочно-информационного фонда, систематизированного и снабженного справочно-поисковым аппаратом (библиографические пособия, каталоги, картотеки, специализированные каталоги и т.п.).

Поисковый образ документа в документальных ИПС пред­ставлен, главным образом, библиографическим описанием. Биб­лиографическое описание документа может сопровождаться ан­нотацией, рефератом, предметными рубриками, классификаци­онными индексами, авторским знаком, а также сиглами библио­тек, служб информации, где хранится документ.

Понятие «факт» дало название целому классу ИПС - фак­тографических, Как уже было сказано, основное отличие факто­графических ИПС от документальных заключается в результатах информационного поиска, отличает их и структура организации информационных массивов. В документальных ИПС при ин­формационном анализе документов особое внимание сосредота­чивается на поиске и выделении тех элементов, которые позво­ляют вести поиск любого документа по его адресу или содержа­нию, В фактографических ИПС элементарными единицами ин­формации являются реквизиты - обязательные данные, уста­новленные законом или нормативно-технической документаци­ей (ГОСТами, ТУ, РД).

Реквизиты отражают определенные научные, технические, экономические свойства процессов, объектов и являются логически неделимыми элементами.

Реквизитам присуще два свойства, весьма важные с точки зрения их обработки:

• отдельный реквизит может входить в состав различных единиц информации;

• отдельно взятый реквизит не может полностью характеризовать объект, процесс, явление;

Каждый реквизит характеризуется именем, значение 1 типом. Совокупность этих характеристик образует форм; реквизита. В зависимости от характера отображаемого им; свойства реквизиты делятся на: реквизиты-признаки и реквизиты-основания.

Реквизиты-признаки отражают качественные свойства объекта, процесса или явления. Реквизиты-признаки, как правило, записываются в алфавитном, алфавитно-цифровом виде. Они являются основой для логической обработки со­ставных единиц информации. С реквизитами-признаками, как единицами информации, можно проводить не только процедуры поиска, сортировки, выборки, группировки, но и математические действия.

Например, в качестве реквизитов-признаков копиро­вального аппарата для изготовления печатных форм можно выделить следующие реквизиты-признаки: страна-изготови­тель; производительность печатных форм/час; размер бумаги (мм); размер оттиска (мм); напряжение (Вт); частота (Гр); по­требляемая мощность (КВт); габариты (мм); масса (кг); цена (руб.).

Как видно из приведенного примера, перечислены каче­ственные характеристики - реквизиты-признаки копироваль­ного аппарата для изготовления печатных форм. Количест­венные характеристики, которыми описываются реквизиты-признаки, выражаются цифрами. Для исчерпывающего опи­сания объекта, процесса необходима некоторая совокупность реквизитов, описывающих его качественные и количествен­ные свойства, называемая сообщением. Каждое сообщение имеет определенную форму. Формы сообщений объединяют множество реквизитов. Частным случаем сообщения являет­ся показатель.

Значимость подробного изложения элементов описания документов и реквизитов увеличивается, когда речь идет о подготовке информационных продуктов и услуг для инфор­мационной поддержки маркетинговой деятельности и функ­ционирования информационных поисковых систем.

Значимость подробного изложения об элементах описа­ния документов и реквизитов приобретает особое значение когда идет речь о подготовке информационных продуктов и услуг по фактографическим запросам. Информационная поддержка маркетинговой деятельности связана с такими формами запроса, где содержанием ответа являются сообще­ния: где?, кто?, когда?, что?, сколько?, почем?.

В этом случае ответами будут являться: где? - в каком месте?, кто? - поставщик, покупатель?, когда? -- в какое время?, что? - какая продукция?, сколько? - как много?, почем? - какова цена?.

Ответы на эти вопросы призваны давать фактографиче­ские и информационно-поисковые системы, которые распо­лагают фактографическими базами данных. Такими инфор­мационно-поисковыми системами являются:

• Информационная система федерального уровня о товарах и услугах;

• Информационная система федерального уровня о почто­вых и связных реквизитах и других показателях;

• Информационная система регионального уровня о това­рах и услугах;

• Информационная система регионального уровня о почто­вых и связных реквизитах и других показателях;

•  Информационные межотраслевые системы о новых ин­формационных технологиях и рыночных отношениях;

• Телекоммуникационные  информационные  системы «Рынок товаров и услуг региона» и др.

Федеральная интегрированная база данных «Контрагент-М»; Владелец НИЛАУ; 125080, г. Москва, ул. Панфилова, 20, корп. 2, тел. (095) 158-48-84, 158-68-27, 195-91-25, Е-

mail: nilauarelay@mail.ru. WWW: mail.ru/ nilau.

Предоставляет следующую информацию:

• подробное описание продукции и услуг (характеристики, спецификации, изображения, условия поставки, цена);

• любая тематика продукции и услуги всех регионов для то­варопроизводителей - бесплатное размещение рекламной информации;

• для потребителей - бесплатный доступ к описанию про­дукции и услуг по сети Интернет или СD-RОМ в регио­нальных центрах;

• для федеральных и региональных органов государствен­ного управления - помощь в информационном обеспече­нии.

Среди информационных систем федерального уровня заслуживают внимания система государственного регистра, которая располагает банком данных «Бухгалтерская отчет­ность», а также информационная система, которая имеет банк данных «Информструктура поддержки малого пред­принимательства сферы информатизации и обеспечения рынка» и БД «Регионы России», которая включает не только информацию о реквизитах, но и подробную характеристику продукции. О базах данных, которыми располагают пред­приятия, организации, учебные заведения России можно уз­нать из каталога РОСИНФОРМРЕСУРСа «Базы данных России», 1999г.

Развитие маркетинговой деятельности стимулировало предприятия, организации, научные учреждения к созданию баз данных для документальных, фактографических, сме­шанных информационно-поисковых систем.

Частной инициативе нет другой альтернативы, и поэто­му нужно, чтобы она находила поддержку у государства, прежде всего на путях создания нормативно-правового и ме­тодического обеспечения. На первом этапе становления рын­ка товаров информационная поддержка в виде ИПС с ком­мерческими БД в той или иной мере обеспечивает продвиже­ние продукции на рынке, оказывает влияние на выбор произ­водителей продукции, новых технологий, видов изделий.

Однако, анализ БД изданного «НИЦ РОСИНФОРМ-РЕСУРС», к сожалению, показывает, что усилия и средства, затраченные генераторами БД, не оправдывают тех надежд, которые были связаны с их ролью в развитии маркетинговой деятельности.

Из реквизитов БД нельзя получить сведений не только о модели изделия, но и группах продукции, не указаны виды документов, которые служили основанием для создания БД, не указано время создания, не сообщаются условия поставки и др. По названию БД нельзя определить класс информаци­онно-поисковой системы.

Отмеченные недостатки, как нам кажется, могут быть устранены, если на местах подготовки регистрационных карт БД примут на себя ответственность региональные центры научно-технической информации, в задачу которых входило бы оказание методической помощи, широкая реклама БД, проведение курсов для лиц, занимающихся маркетинговой деятельностью.

Аналитико-синтетическая переработка документов. Анализ как метод исследования текстов документов состоит в том, что изучаемый текст расчленяется на составные эле­менты, каждый из которых затем рассматривается в отдель­ности как часть целого. Целью анализа является выделение ключевых слов, терминов, научных понятий, которые пере­дают смысловое содержание документа. Выделенные лекси­ческие единицы используются для создания поискового об­раза документа. Обобщение информации, полученной в ходе информационного анализа текстов, в зависимости от харак­тера и цели выполняемой работы, оформляется в виде более простых обобщений (библиографического описания, анно­таций, описания) или более сложных (библиографического указателя со сложной системой входов, реферативных жур­налов со вспомогательными указателями, научно-аналитических обзоров, систематизированных подборок фактов и т.п.).

Аналитико-синтетическая переработка информации - это преобразование документов с целью извлечения необходимых сведений, их оценки, сопоставления, обобщения. Ан­нотирование, реферирование, извлечение фактов и подготов­ка информационных продуктов и услуг составляет сущность переработки документов.

Основными видами результатов аналитико-синтетической переработки документов являются:

• библиографическое описание - совокупность библиогра­фических сведений о документах, приведенных по уста­новленным правилам (заголовок, заглавие, выходные дан­ные, количественная характеристика и др.). Библиографи­ческое описание как процесс переработки документа тре­бует хороших знаний состава и видовой структуры пер­вичных документов. Библиографическое описание непре­менно входит в состав любого библиографического посо­бия, информационного издания. По характеру включае­мой информации и целевому назначению информацион­ные издания подразделяются на библиографические, рефе­ративные и обзорные. По материальной конструкции ин­формационные издания подразделяются на книжные, жур­нальные, листовые, карточные. По срокам публикации на периодические и непериодические;

• аннотация - краткая характеристика документа, его части или группы документов с точки зрения назначения, содер­жания, формы. Аннотации делятся на справочные (отсутствует оценка аннотируемых документов) и реко­мендательные, когда составитель аннотации стремится обратить внимание на тот или иной аспект, раскрываю­щий более полно содержание или личность автора доку­мента. Как правило, рекомендательные пособия носят субъективный характер;

• реферат. В отличие от аннотации, в реферат включаются

основные фактические сведения, методы исследования, ус­ловия и время проведения эксперимента, определение це­лесообразности обращения к первоисточнику документа. В реферате описываются методы, с помощью которых по­лучен результат. По целевому назначению реферат может быть общий и специализированный. По способу характеристики - конспективный и проблемно-ориентированный. По глубине свертывания - краткий и расширенный. По форме представления - анкетный, позиционный, таблич­ный, телеграфного стиля, схематический. По методу изло­жения - реферат-экстракт, перефразированный, синтези­рованный. По способу подготовки - интеллектуальный и автоматизированный. По количеству охваченных источ­ников - монографический и обзорный. По авторскому ис­полнению - автореферат и реферат, составленный другим лицом (референтом).

Индексирование систематизация, кодирование. В ин­формационной технологии, которая представляет собой сис­тему взаимосвязанных методов, способов и средств сбора, накопления, обработки, хранения, поиска и выдачи инфор­мации, особое место занимает такое понятие как «индексирование» или присвоение документу набора ключе­вых слов и кодов, служащих указателем содержания доку­мента и используемых для его поиска. Возможны два способа индексирования - свободное (когда непосредственно из тек= ста документа извлекаются ключевые слова без учета всех видоизменений, их форм и отношения между ними) и кон­тролируемое индексирование (когда в поисковый образ до­кумента включаются только те слова, которые зафиксирова­ны в словаре ключевых слов, где указаны их синонимические, родо-видовые и ассоциативные отношения). Обычно индек­сирование осуществляют опытные специалисты в области информационной технологии или специалисты данной об­ласти науки. Для уменьшения затрат времени и средств в на­стоящее время индексирование документов осуществляется в автоматизированном режиме. Различают статистические, пермутационные, библиографические и ассоциативные мето­ды индексирования.

Статистические методы основаны на гипотезе о том, что частота употребления слова связана с его значимостью для смысла документа. Наряду с этим, существует также мнение, что информационная ценность редких слов выше, чем информационная ценность часто повторяющихся слов. Это должно учитываться при индексировании документов.

Пермутационное индексирование осуществляется сло­вами из заглавия документа, путем перемещения слов загла­вия в алфавитный словарь столько раз, сколько разных слов имеется в нем, при этом каждое ключевое слово помещается на свое место алфавита и сопровождается всем контекстом заголовка.

Библиографическое и ассоциативное индексирование. Библиографическое индексирование документа - для поиска информации в различных информационных массивах (каталогах, картотеках и др.) - особый вид кодирования, ко­торый используется в более широких целях. Ассоциативное индексирование осуществляется с использованием карт ассо­циативных связей между ключевыми словами, полученных с помощью анализа частоты повторения сочетаний ключевых слов в текстах.

Систематизация - вид индексирования. Систематизация включает определение или составление классификационного индекса документа в соответствии с его содержанием по таб­лицам определенной системы классификации (УДК, МКИ, Указатель стандартов, Рубрикатор ГАСНТИ и др.)

В автоматизированных информационных сетях не меньшее значение, чем индексирование приобрело понятие «кодирование» - преобразование сообщения в код. Код -система условных, обычно сокращенных обозначений (слов, названий) текста, применяемых при обработке, хранении, пе­редаче информации. Шифр - это тоже условные знаки, кото­рые используются, главным образом, для секретного письма. Код, в отличие от шифра, представляет собой совокупность знаков, символов, которые используются, как правило, для сжатия, уменьшения физических объемов информации.

Кодирование информации преследует цели:

• обеспечить оперативную передачу информации по кана­лам связи пользователю;

• организовать так информационные массивы, чтобы они были доступны пользователю, поиск информации в масси­вах был бы не только оперативным, но и удобным для пользователя;

• увеличить информационную емкость носителя информа­ции и наиболее рационально использовать долговремен­ную и оперативную память;

•  позволяет наиболее полно раскрывать содержание доку­мента и получать пользователю релевантные документы по его запросам.

Индексирование (кодирование) в информационной тех­нологии переработки документов находит широкое приме­нение в информационных, библиотечных и вычислительных сетях

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: