Под методикой индексирования понимают совокупность приемов и правил образования поискового образа документа или запроса, т.е. приемов и правил образования индексов (УДК, ББК и т.д.) для понятий, тематических и предметных рубрик, отражающих содержание документа или запроса. Основной задачей методики индексирования является обеспечение единообразия подходов в создании поисковых образов документов. Единообразие индексирования позволяет обеспечить быстрый, полный и точный поиск по большинству типовых для данного фонда запросов. Способствует правильной организации информационных массивов первичных и вторичных документов.
Предметом общей методики является разработка приемов и правил индексирования, отбора понятий в поисковый образ документа, вытекающих из особенностей эксплуатируемых в информационных системах информационно-поисковых языков. Специфика ИПЯ определяется их функциональным назначением и требует введения специальных правил и приемов индексирования документов не только по предметным областям, но и тематическим ^направлениям.
|
|
В связи с тем, что во многих ИПС используется не один, а одновременно несколько ИПЯ для обслуживания различных нужд системы в настоящем пособии предпринята попытка коротко охарактеризовать наиболее часто используемые ИПЯ, Основными критериями в выборе ИПЯ для ИПС являются: семантическая сила, однозначность, мнемоничность, эффективность поиска.
Семантическая сила - способность ИПЯ описать объект с присущими этому объекту характеристиками.
Под однозначностью понимается то, что ключевое слово, термин, понятие должны передавать только одно значение.
Мнемоничность представляет собой некоторое приспособление (символ, знак) для формы записей (кода, индекса), не несущее смысловой нагрузки, но существующее для облегчения зрительного восприятия, прочтения, запоминания. Например, точка в классификационном индексе УДК (УДК 621.315.61).
Индексирование всегда представляет собой попытку более или менее адекватно отразить объективную реальность. Поэтому мера расхождения с объективной реальностью может являться мерой качества индексирования. Эта мера дает представление лишь о возможностях определенного ИПЯ обеспечивать полноту, точность (релевантность) информационно-поисковой системы, которая реализована с помощью того или иного языка.
Общеметодические правила, независимо от применяемого языка индексирования, подразумевают, что индексирование должно отражать не сумму локальных (отраслевых понятий), а быть единой системой, в которой учитываются, взаимосвязи и взаимозависимости понятий.
|
|
Интегральный подход в ИПЯ, которые обслуживают "свои" и "чужие" информационные ресурсы и запросы, должны в равной степени использоваться для индексирования, невзирая на их близость или отдаленность от профиля формируемых информационных ресурсов.
Универсальная десятичная классификация (УДК). УДК является международной системой классификации документов. Она отвечает наиболее существенным требованиям, предъявляемым к ИПЯ классификационного типа:
• международность;
• универсальность;
• мнемоничность;
• возможность отражения новых достижений науки и техники без существенных изменений в ее структуре.
Наличие детально разработанных таблиц общих и специальных определителей и их применение при индексировании документов безгранично раздвигает рамки классификации и делает ее гибкой и более дробной.
УДК в органах информации и научно-технических библиотеках используется для организации, как универсальных информационных массивов, так и для отраслевых и узкоспециализированных фондов.
Развитие науки и техники требует постоянного совершенствования любого ИПЯ, в том числе и УДК,
Постоянные усилия специалистов многих стран и международных организаций, направлены на усовершенствование УДК, а также единые методические принципы ее совершенствования создали возможность поднять УДК до уровня международной и стандартизованной систем классификации.
Специальные определители, называемые аналитическими, отражают дополнительные качества предмета. Знаки, применяемые в УДК представляют возможность наиболее эффективно использовать как основные, так и вспомогательные таблицы УДК.
Библиотечно-библиографическая классификация (ББК) входит в комплекс информационно-поисковых языков иерархического типа. ББК как ИПЯ обслуживает универсальные, отраслевые и специализированные документальные фонды. Состав лексических единиц ББК позволяет наиболее полно раскрыть предметное содержание документа, описать объект с различных точек зрения, в частности, заиндексировать документ по форме издания, хронологическим рамкам, территориальным границам и многим другим аспектам. Структура ББК представлена основными' таблицами, планами расположения, а также таблицами общих и специальных типовых делений. ББК имеет алфавитно-предметный указатель для быстрого отыскания в таблицах индексов. В основе построения ББК лежат две логические операции: делен объемов понятий и упорядочение понятий, образованных результате деления. При делении понятий в ББК были соблюдены требования формальной логики. Чтобы делен понятий было обоснованным, за основание деления выбирался существенный признак, от которого не только зависит, но из которого вытекают все другие признаки классифицируемых объектов, предметов; сумма объемов членов деления понятий всегда адекватна объему родового понятия. При создании ББК соблюдался принцип непрерывности и последовательности деления понятий: от высшего класса к низшему, от родового к видовым, для которой делимое понятие является самым ближним.
ББК позволяет применять альтернативные решения, е. отражать один и тот же предмет в различных отделах классификации. Это объясняется тем, что классифицируемые объекты могут являться предметом изучения двух или боле дисциплин. Комбинируя индексы основных таблиц и индексы типовых делений, ББК обеспечивает многоаспектную классификацию, что в свою очередь повышает эффективность информационного поиска и выдачу релевантных документов.
Международная классификация изобретений (МКИ). Предназначена для единообразного, в международном масштабе индексирования патентных документов. МКИ представляет собой эффективный инструмент для патентных ведомств и других потребителей, осуществляющих поиск патентных документов для различных целей, в том числе для определения новизны, приоритета и т. д. МКИ служит не только для раскрытия содержания патентных документов и их поиска, но и является инструментом для упорядоченной хранения патентной документации, что в свою очередь облегчает доступ к ней. МКИ, как УДК и ББК, имеет иерархическую структуру и охватывает все области знаний, объекты которых могут подлежать защите охранными документами. МКИ создает хорошую основу для поиска информации, на основе которой определяется современный уровень развития техники и технологий, получения статистических данных в области промышленной собственности.
|
|
Алфавитно-предметные классификации (АПК). Структура АПК:
• предметный заголовок;
• предметный подзаголовок;
• предметная запись.
Предметный заголовок - это подразделение предметной классификации, определяющее основную тематику документов, собранных под этой рубрикой. Предметный заголовок может быть выражен как одним словом, так и словосочетанием, а также фразой естественного языка, которая используется для обозначения предмета.
Предметный подзаголовок - вторые и последующие подразделения предметной классификации, конкретизирующие основную предметную рубрику.
Предметный подзаголовок - это слово, словосочетание, фраза, которая выражает аспект рассмотрения предмета. Предметный подзаголовок может обозначать и подкласс предметов, которые входят в более широкий класс, обозначенный предметным заголовком, например, предметный заголовок - тракторы, предметный подзаголовок - тракторы гусеничные, тракторы колесные пропашные.
Предметная запись - это слово, словосочетание, фраза, которая уточняет предметный заголовок или подзаголовок. Предметная запись может обозначать как предметный подзаголовок, так и класс предметов на другом уровне иерархии.
Предметная рубрика - это совокупность предметного заголовка, подзаголовка и записи с указанием адреса или места хранения документа. Между предметными заголовками, подзаголовками в АПК указываются синонимические, родо-видовые и ассоциативные отношения. К ассоциативным отношениям отнесены отношения вида: «часть-целое» «процесс-орудие», «процесс-материал», «материал-изделие» и др. Все виды отношений в АПК имеют свои пометы: синонимии «см.» (смотри); родо-видовые отношения между предметными заголовками фиксируются пометами «см.» (смотри) и "см. также"; парадигматические отношения между заголовками и входящими в них подзаголовками указывают путем сдвига подзаголовка на два знака вправо относительно заголовка; ассоциативные отношения имеют пометку «см. также».
|
|
Фасетные классификации. Среди существующих информационно-поисковых языков особое место занимают фасетная или аналитико-синтетическая классификация. Этот вид классификации был предложен Ш.Р. Ранганатоном - «Классификация с двоеточием». Сущность метода разработки фасетных классификаций состоит в том, что на основе анализа отрасли знания, техники, документов выделяют такие категории классов предметов, которые применяются в данной отрасли. Перечень категорий (классов предметов) называют фасетами. Выделенные из документов термины, научные понятия распределяются по фасетам, в которых могут образовываться субфасеты. Термин, понятие, вошедший в субфасету, называют фокусом. Каждый фасет обозначается буквой, а субфасет - буквой фасета, а также номером.
Методика индексирования документов с использованием фасетной классификации сводится к тому, что в результате анализа документа выделяют главную тему или предмет, которым присваивается буква фасета. Для детального описания предмета из фасета берут столько фокусов, сколько их необходимо для полного и многоаспектного раскрытия содержания. Использование фасетной классификации имеет ряд преимуществ перед иерархическими, классификациями. Фасетные классификации позволяют собирать в одном месте информационного массива все документы по предмету (теме), которые заиндексированы с учетом всего многообразия аспектов предмета.
Таким образом, фасетные классификации позволяют одновременно осуществлять многоаспектный поиск информации. Несмотря на значительные преимущества данной классификации перед иерархическими, фасетные классификации не нашли широкого распространения, потому что этот вид классификации обслуживает массивы документов по узким тематическим, в лучшем случае, отраслевым направлениям.
Рубрикатор государственной автоматизированной системы научно-технической информации - (ГАСНТИ). Национальные рубрикаторы разрабатываются в соответствии с «Положением о лингвистическом обеспечении национальных систем НТИ» и нормативно-техническими предписаниями Международного центра научно-технической информации (МЦНТИ 7-75).
Нормативно-методические документы о лингвистическом обеспечении определяют не только разработку, но и эксплуатацию лингвистического обеспечения, а также автоматизированную систему ведения информационно-поисковых языков, обеспечивающих справочно-информационное обслуживание сведениями о лингвистических средствах и поддержке их ядра в рабочем состоянии с учетом изменения во времени.
Ядро лингвистического обеспечения кроме рубрикатора включает базисные тезаурусы, перечни грамматических средств ИПЯ, а также таблицы соответствия рубрикатора с информационными классификациями, используемыми в системе НТИ. Рубрикатор ГАСНТИ является важнейшим классификационным языком в комплексе лингвистического обеспечения в автоматизированных системах НТИ.
Основное назначение рубрикатора ГАСНТИ - разделение информационного потока на подмассивы, формирование справочно-информационных массивов на базе использования вычислительной техники, отражение наиболее важных аспектов документов и запросов.
Исходя из общих принципов рубрикации (индексирования) документов многофункционального назначения рубрикатора, который используется для формирования документальных фондов и информационных массивов, необходимо чтобы каждый документ, представляющий потенциальный интерес с разных точек зрения, содержал в рубрикаторе соответствующие коды рубрик.
Таким образом, в каждом разделе рубрикатора присутствуют типовые коды рубрик. Как правило, список рубрик в рубрикаторе, описывающих содержание документов и запросов, значительно шире списка рубрик, используемых для индексирования документов.
Каждый документ, который проходит семантическую обработку в соответствующих всероссийских центрах информации, обязательно получает код или группу кодов рубрикатора. На государственные центры научно-технической информации возложена ответственность за централизованное индексирование информационных документов, которые обрабатываются в них с использованием Рубрикатора.
В международных, специализированных и отраслевых автоматизированных информационных системах используется целый комплекс информационно-поисковых языков.
Классификатор государственных стандартов (КГС). Входит в состав лингвистического обеспечения информационных систем и принадлежит к одной из разновидностей информационно-поисковых языков иерархического типа. Структура КГС включает собственно классификатор, предметный указатель, списки действующих государственных стандартов, технических условий на аттестованную продукцию, а также действующих и утвержденных ГОСТов. Классификатор представлен списком основных делений с их индексами, а также списком классов и групп. Каждый раздел КГС разделен на классы. Раздел обозначается буквами, а классы арабскими цифрами, от нуля до девяти. Классы делят на группы и обозначают составным индексом раздела, класса и группы. Поиск стандартов в информационном массиве может осуществляться по номеру, по разделу, по классу и группе.
Информационно-поисковые языки дескрипторного типа. В конце 60-х гг. получили широкое распространение информационно-поисковые языки дескрипторного типа. В основу построения дескрипторных ИПЯ положен принцип координатного индексирования, который заключается в том, что центральная тема документа, запроса выражается в виде некоторого перечня множества слов и словосочетаний естественного языка, обычно являющихся именами простых классов (предметов, процессов, явлений). Такие слова и словосочетания, которые выделены из текста документов, запросов являются как бы координатами в некотором N-мерном пространстве предметно-тематических признаков. Когда в поисковом предписании перечисляются слова и словосочетания, которые должны содержаться в поисковых образах поисковых документов, то как бы указываются координаты этих документов в данном N-мерном пространстве предметно-тематических признаков,
ИПЯ дескрипторного типа позволяют обеспечить глубину и полноту индексирования документов и тем самым осуществлять поиск не только пертинентных (полезных), но и релевантных документов, хранящихся в информационных массивах.
В словарный состав дескрипторного языка включается терминология не только отраслевая, но и терминология других тематических направлений. Формирование массива лексических единиц словаря проводится методом свободного индексирования документов и запросов. Отобранная терминология из документов и запросов дополняется терминами из тезаурусов научно-технических терминов, классификационных таблиц УДК, ББК, справочников, учебников и др. Выделенные термины, научные понятия являются основой для разработки терминологических систем, которые служат созданию лексико-семантического перечня Дескрипторов и недескрипторов; систематического указателя дескрипторных областей и групп; перечню дескрипторов по группам.
Основным достоинством дескрипторных языков является то, что они позволяют проводить эффективный поиск по любому, заранее не предусмотренному сочетанию признаков, кроме того, дескрипторные ИПЯ позволяют легко вводить новые термины и учитывать новые информационные потребности. Дескрипторные ИПЯ обычно имеют небольшой по объему словарный состав. К недостаткам таких ИПЯ можно отнести:
• трудности, связанные с проведением информационного поиска по тематическим запросам;
• создание ИПЯ дескрипторного типа является трудоемким делом;
• применение ИПЯтребует специальных навыков.
Отраслевые, местные службы информации формируют свои справочно-информационные фонды не только по основному профилю, но и родственным, смежным отраслям науки и техники. Для обслуживания такой коллекции документов от ИПЯ требуется универсальность. ИПЯ дескрипторного типа такой универсальностью не обладают.
Структура ИПЯ: дескрипторная статья, дескрипторная группа, дескрипторное поле, дескрипторная область.
Дескрипторная статья включает заглавный дескриптор, синонимы, родовые дескрипторы, видовые дескрипторы, ассоциативные дескрипторы, аскрипторы.
Дескрипторную группу образуют лексические единицы - дескрипторы, объединенные в тематический подкласс.
Дескрипторное поле образуют дескрипторные области, т. е. области науки и техники.
По наполняемости дескрипторами дескрипторных групп, полей и областей можно судить об эффективности обслуживания ИПЯ дескрипторного типа коллекции документов.
ИПЯ дескрипторного типа снабжаются вспомогательными входами (ключами): алфавитный указатель дескрипторов, указатель иерархических отношений между дескрипторами и др.
Основным достоинством дескрипторных языков является то, что они позволяют проводить эффективный поиск по любому, заранее не предусмотренному сочетанию признаков, кроме того, дескрипторные ИПЯ позволяют легко вводить новые термины и учитывать новые информационные потребности. Дескрипторные ИПЯ обычно имеют небольшой по объему словарный состав.
Общероссийский классификатор промышленной продукции (ОКП). ОКП разработан и введен в действие на территории Российской Федерации взамен Общесоюзного классификатора промышленной и сельскохозяйственной продукции.
ОКП предназначен для обеспечения достоверности, сопоставимости и автоматизированной обработки информации о продукции в таких сферах деятельности как стандартизация, статистика, экономика и другие.
ОКП представляет собой систематизированный свод кодов и наименований группировок продукции, построенных по иерархической системе классификации. Классификатор используется при решении задач каталогизации продукции, включая разработку каталогов и систематизацию в них продукции по важнейшим технико-экономическим признакам; при сертификации продукции в соответствии с группами однородной продукции, построенными на основе группировок ОКП; для статистического анализа производства, реализации и использования продукции на макроэкономическом, региональном и отраслевом уровнях; для структуризации промышленно-экономической информации по видам выпускаемой предприятиями продукции с целью проведения маркетинговых исследований и осуществления снабженческо-сбытовых операций.
Каждая позиция ОКП содержит шестизначный цифровой код, однозначное контрольное число и наименование группировки продукции,
В ОКП предусмотрена пятиступенчатая иерархическая классификация с цифровой десятичной системой кодирования.
На каждой ступени классификации деление осуществлено по наиболее значимым экономическим и техническим классификационным признакам.
При необходимости отражения конкретных типов, марок, моделей и других характеристик, отдельных классификаторах продукции в качестве первых шести знаков должны использоваться коды из настоящего Общероссийского классификатора продукции.
Ведение ОКП осуществляет Всероссийский научно-исследовательский институт классификации, терминологии и информации по стандартизации и качеству (ВНИИКИ) Госстандарта РФ совместно с головными и ведущими организациями по ОКП министерств и ведомств.
В настоящем кратком обзоре средств лингвистического обеспечения, которые обслуживают многообразие информационных задач, не исчерпан весь репертуар лингвистических средств (указатель географических понятий, классификатор профессий и должностей, а также значительное число объектно-признаковых информационных языков, которые используются для обработки информации).
В принципе, каждый из ИПЯ обеспечивает информационную технологию по сбору информации, учету, систематизации, организации информационных массивов (банков данных), поиску информации, а также структурированию библиографических записей в библиографических и реферативных пособиях, тематических справках, научно-аналитических обзорах, деловых документах, статистических отчетах. Об эффективности средств лингвистического обеспечения в информационной технологии можно судить по элементам описания документов и их использовании для производства информационных продуктов и услуг, см. схему 3.
Средства лингвистического обеспечения используются в информационных центрах, издательствах и учреждениях, обеспечивающих централизованную обработку документов, предназначенных для ввода в информационно-библиотечные и автоматизированные системы.
Среди информационных центров, осуществляющих централизованную обработку научно-технической, экономической, производственной, юридической и художественной литературы, особое положение занимает Всероссийская книжная палата - учреждение, ведущее на базе контрольного (обязательного) экземпляра государственную регистрацию, учет и хранение произведений печати, изданных в стране не, и информирующее о них путем публикации Государственных
библиографических указателей (аналоги баз данных), статистические ежегодники, статистические сборники «Печать России», а также осуществляющее централизованную каталогизацию (библиографическое описание и классификацию), и на этой основе издающее библиотечные карточки для каталогов и картотек, которые ведутся не только в библиотеках, но и в информационных службах, ведущих справочные информационные фонды и сервис.
Использование информационно-поисковых языков находит широкое применение во всех изданиях Книжной палаты. Так, например, при подготовке каталожных карточек применялось несколько классификационных ИПЯ, а также информационно-поисковый язык - Библиографическое описание, рис. 1.
Использование результатов централизованной обработки книг, журнальных и газетных статей и др. в информационных технологиях снижает трудозатраты, уменьшает стоимость справочного аппарата, обеспечивает совместимость справочного аппарата, улучшает функционирование справочных ресурсов.
Рис. 1:1- Язык, библиографическое описание; 2 - Предметные рубрики (алфавитно-предметные классификации); 3 - Классификационные индексы УДК; 4 - Классификационные индексы ББК; 5 - Авторский знак.
Из-за отсутствия таблиц совместимости при централизованной обработке документов используют одновременно несколько ИПЯ, тем самым обеспечивается гостеприимство информационных потоков в различных информационных систем ах.
Использование информационно-поисковых языков не только обеспечивает поиск информации в информационных массивах, но и позволяет вести научно-аналитическую работу, связанную с оценкой и управлением ресурсами.
Не только Книжная палата осуществляет информационную деятельность через свои издания, но и другие информационные центры в своих изданиях одновременно используют несколько ИПЯ. Так, например, в монографии, изданной Научно-техническим центром «Информ-регистр», используется кроме классификационных ИПЯ еще и международный стандартный номер книги и аннотация, рис. 2.
Приведенные данные об издании позволяют не только осуществить поиск монографии, но и принять решение о целесообразности более глубокой проработки содержания, или ограничиться знакомством.
Без особых затрат и усилий документ может быть включен в справочно-информационный фонд и справочный аппарат службы информации и использован при подготовке информационных продуктов и оказании информационных услуг.
Всероссийский научно-технический информационный центр (ВНТИЦ) получает от научных, проектно-технологических организаций, высших учебных заведений, Специализированных Советов по защите диссертаций, др. предприятий, регистрационные и информационных карты, формирует и распространяет информацию о начале и окончании работ НИР и ОКР. ВНТИЦ создает уникальный фонд научно-технической документации, в виде отчетов регистрационные и информационные карты служат не только для учета и контроля НИР и ОКР, но и для выработки управленческих решений.
В функционально-технологических форматах карт указываются не только индексы иерархических ИПЯ (УДК, ББК, МКИ, Рубрикатор), но и ключевые слова, предметные рубрики, реквизиты, которые позволяют структурировать информационные массивы и базы данных с учетом частоты обращений к тем или иным полям формата.
Набор полей в формате ввода информации о НИР и ОКР позволяет автоматизировать процесс систематизации записей при подготовке реферативных журналов, сборников, рефератов НИР и ОКР и регистрационных бюллетеней, а также создавать систему вспомогательных входов (ключей) в информационные издания.
В регистрационных информационных картах широко используется система кодирования информации. Так, в регистрационной карте отражены стадии (этапы) ОКР: 09 Техническое задание; 45 Техническое предложение; 42 Эскизный проект; 81 Технический проект.
Рабочая документация: 54 Опытный образец; 63 Установочная серия; 90 Промышленная серия.
Основание проведения работ: 7146
07 Постановление Правительства РФ; 16 Постановление Администрации региона; 34 Задание ведомства; 52 Заявки предприятий; 43 Инициативная.
Сметная стоимость работ: 7173
7713 Госбюджет | |
7731 ГФРНТ | |
7722 Хоздоговор |
Рис. 2:1 - ИПЯ классификационного типа; 2 - Библиографическое описание; 3 - Международный стандартный номер; 4-Аннотация.
В информационной карте (в отличие от регистрационной) об окончании НИР и ОКР в формате предусмотрен реферат. К структуре реферата (по инструкции) предъявляются следующие требования: 9108 Реферат; 9117 Объект разработки или проектирования; 9126 Цель работы; 9124 Методы исследования, аппаратура; 9153 Полученные результаты; 9162 Степень внедрения; 9171 Эффективность; 9180 Область применения; 9198 Основные конструктивные и технико-экономические показатели; 5634 Индексы УДК; 5616 Коды тематических рубрик по рубрикатору.
Широкое использование способов кодирования информации в регистрационной и информационной картах позволяет структурировать информацию в базах данных, ускорять процесс обращения к базам данных, вести статистическую обработку сведений и на этой основе создавать новые информационные продукты.
Коды или шифры позволяют снизить трудоемкость по обработке информационных массивов, вести сортировку, упорядочивать информацию в определенной последовательности, в зависимости от значения ключевых признаков осуществлять как первичную, так и вторичную группировку.
Статистические методы обработки фактографической информации крайне важны, когда речь идет о системе информационной поддержки маркетинговой деятельности. Аналитические документы (отчеты) - статистические отчеты позволяют маркетинговой службе не только вести наблюдение за движением товаров на рынке, но и прогнозировать события.