ставление об её объёме может дать физический уровень, т. е. натуральный (физический) объём, занимаемый информацией. Так, первоначальное представление о документах на бумажных носителях можно получить, измерив их по количеству листов (страниц) или же в килограммах, в кубических метрах, а также по количеству книг в общественных и личных библиотеках, по числу единиц хранения (дел) и даже по длине полок в архивохранилищах. Для аудиовизуальных и машиночитаемых документов могут быть использованы такие единицы измерения, как длина киноплёнки или магнитной ленты в метрах, количество фотографических кадров, видеокассет, дискет, оптических дисков и т. п.
Физический объём письменных документов можно выразить в печатных листах. Печатный лист (печ. л.) — это оттиск на одной стороне листа бумаги формата 60x90 см. Используется также понятие условного печатного листа (усл. печ. л.). В условных печатных листах просчитываются оттиски на бумаге других форматов (например, 70^90 см и др.) через специальный коэффициент.
|
|
Информационный объём документа может быть выражен в учётно-издательских (уч.-изд. л.) и авторских листах (авт. л.). В этом случае осуществляется переход уже на синтаксический (знаковый) уровень. Учётно-издательский лист, также как и авторский лист, равен 40 тыс. печатных знаков, включая пробелы между словами, или 700 строкам стихотворного текста, или 3000 см2 графического материала (иллюстраций, карт и т. п.).
В информатике количество информации определяется с помощью двух стандартных единиц измерения: бит (один символ двоичного алфавита, т. е. двоичная цифра, используемая для кодирования любой информации) и байт. Восемь бит составляют 1 байт; 1 килобайт (Кбайт) — 1024 байт; 1 мегабайт (Мбайт) = 1024 Кбайт = 1048576 байт; 1 гигабайт (Гбайт) = около 1 млрд. байт и т. д.
Отношение информационного объёма документа (синтаксического уровня) к физическому объёму свидетельствует о компактности документа.
Однако физический объём документа, также как и количество Жаков в нём, т. е. синтаксический уровень не дают пред-
Документоведение
ставления о реальном количестве информации в документе. Подсчитать же это реальное количество весьма непросто. Не случайно отдельные авторы вообще считают подобный подсчёт невозможным.
Действительно, с позиций метрологии нереально определить семантический уровень документа, поскольку измерению в данном случае подвергаются свойства социальных явлений и процессов, получивших отражение в документах. Измерением этих свойств занимается статистика, а в роли средств измерения выступают не технические устройства, позволяющие сопоставить измеряемую величину с эталоном, а те или иные социальные структуры1. Функции измерительных устройств, сопоставляющих явления или процессы с мерой, выполняют, в частности, управленческие работники, социологи, юристы, экономисты, политики, журналисты.
|
|
В поисках наиболее эффективных путей измерения реального количества документированной информации предлагаются различные способы, используются разные понятия. В частности, некоторые исследователи (Б. В. Бирюков, Г. Г. Воробьёв) предлагают так называемый тезаурусный подход. Для обозначения реального количества информации, вложенного в какой-либо информационный объём (в книгу, газету, официальный документ и т. п.), вводится понятие информационная ёмкость. Реальное же количество информации, извлекаемое конкретным потребителем, т. е. количество новой для данного потребителя информации, обозначается понятием информативность документа.
Содержание всей информации в определённой информационной системе называется «тезаурус» (от греч. "Й1ёзаиго$" — запас). «С точки зрения информативности тезаурус каждого сообщения делится на три части: 1) основная информативность — то, что дано и что получено; 2) потери информативности — то, что дано, но не получено из-за рассеянности, спешки, незнания языка или предмета; 3) бесполезная (избыточная) информация — информационный
Данилин С. Н. О современном понятии информации // Информационные технологии. 2003. № П. С. 57.
Свойства и структура документированной информации
шум»1. В ряде случаев избыточность информации создаётся преднамеренно, чтобы повысить вероятность доведения её до потребителя, в частности, в учебной литературе, но особенно — в рекламе, в агитационно-пропагандистской документации.
Приёмник информации (реципиент) также имеет свой тезаурус, который отличается от тезауруса документа, но тоже делится на три части: 1) основная информативность — то, что дано и что получено; 2) простая ассоциативная информативность — то, что автор не дал, но подразумевал и предполагал дать и получатель сумел извлечь, благодаря своей квалификации; 3) сложная ассоциативная информативность — то, что автор не дал, не предполагал давать, но получатель извлёк.
Без ассоциативной информативности невозможен творческий процесс во многих областях человеческой деятельности. Использование языка ассоциативных понятий позволяет существенно повышать информационную ёмкость документа. Потребитель обычно получает извне лишь определённую часть информации. Она «играет роль возбудителя, вызывающего возрастание информации внутри сознания получателя» (Ю. М. Лотман). Поэты, писатели, художники, работая над своими произведениями, практически всегда рассчитывают на наличие у своих будущих читателей простой ассоциативной информативности. Достаточно вспомнить басни И. А. Крылова, где героями выступают животные, но в действительности автор имеет в виду людей, высмеивая именно их недостатки и слабости. Читатель об этом догадывается, получая, таким образом, информацию, которую автор не дал, но предполагал дать. «Когда я пишу,— отмечал в этой же связи А. П. Чехов, — я вполне рассчитываю на читателя, полагая, что недостающие в рассказе субъективные элементы он подбавит сам»2. Без сложной ассоциативной информативности немыслимы эффективное развитие научных исследований, появление открытий и изобретений.
1 Воробьёв Г. Г. Твоя информационная культура. М., 1988. С. 71-72.
2 Чехов А П. Собр. соч. Т. 11. Письма. 1877-1892. М, 1963. С. 412.
Документоведение
Цифровая оценка информативности осуществляется путём составления двух списков дескрипторов (от англ. "йезсгу" — распознавать), т. е. значимых слов или словосочетаний, несущих смысловую нагрузку и нередко именуемых ключевыми словами. В первый список помещаются все дескрипторы документа, а во второй — дескрипторы получателя, приёмника. Количество дескрипторов, повторяющихся в обоих списках, служит показателем информативности.
|
|
Подобный метод часто используется на практике. В частности, в 1950-е гг., вскоре после смерти И. В. Сталина, западные специалисты-советологи на основе количественного анализа опубликованных в газете «Правда» статей обнаружили резкое снижение числа упоминаний о «вожде всех времён и народов». На этом основании аналитики пришли к выводу» что преемники Сталина стремятся дистанцироваться от него. И действительно, вскоре на XX съезде КПСС лидер правящей партии Н. С. Хрущёв выступил со знаменитым докладом о разоблачении культа личности Сталина и его последствий.
Отношение информационной ёмкости к информационному объёму (к синтаксическому уровню) называется информационной плотностью документа. Чем больше количество дескрипторов в единице объёма, тем, следовательно, плотнее текст документа.
Информационная плотность зависит от языка. К примеру, текст на английском языке обычно более плотный, чем на немецком. Причём статья, напечатанная в США, отличается большей плотностью, чем в Великобритании.
На информационную плотность влияет также стиль, выбранный для конкретного документа или присущий данной отрасли знания, либо характерный для данного жанра, в данном органе печати или у данного автора. Тезисы какого-либо сообщения, доклада имеют большую плотность, нежели сам опубликованный доклад. Документы технического, естественно-научного, делового содержания обладают большей плотностью, чем гуманитарные. Математик, физик, биолог, инженер пишут более плотно, чем философ, политолог или историк.
Документированную информацию малой плотности можно быстро и легко просматривать, тогда как документы с относи-
Свойства и структура документированной информации
тельно большой плотностью требуют чтения целиком. Вдобавок следует иметь в виду, что в больших произведениях плотность изменяется от начала к концу документа. Медленно возрастая и достигая максимума приблизительно к концу первой трети объёма, плотность документированной информации идёт затем на убыль и перед концом достигает минимума. Однако в самом конце происходит резкий её рост за счёт заключения, выводов1.
|
|
Кроме того, информационная ёмкость и информативность документа зависят от структуры, степени формализации и т. п.