Информационный анализ документов

Информационный анализ документа предполагает формальную характеристику его текста по нескольким параметрам: физическому объему (габаритам), информационному объему, информационной емкости, информативности и т.д.

Физический объем документов на бумажных носителях измеряют в печатных листах. Печатный лист — единица печатного объема (площади) произведения печати, равная одной стороне бумажного листа стандартного формата и содержащая различное число печатных знаков в зависимости от формата наборной полосы, особенностей набора, шрифта. Различают физический печатный лист (его определение совпадает с определением печатного листа) и условный печатный лист, за него принят печатный лист формата 60x90 см; он служит для сопоставления печатных объемов изданий, отпечатанных на бумаге разного формата.

Кинофильмы, видео- и звукозаписи измеряются временем демонстрации (звучания).

Информационный объем документа измеряется длиной или площадью непрерывного текста (исключая пробелы, поля, паузы). В издательской практике используется понятие учет-но-издательский лист. Эта единица объема издания, равная 40 тыс. печатных знаков или 700 строкам стихотворного текста, или 3000 кв. см иллюстративного материала. Но нередко информационный объем измеряется количеством знаков. В частности, в количестве знаков (байтов) измеряется информационный объем машиночитаемых носителей.

Отношение информационного объема документа к его физическому объему называется компактностью. Наиболее компактен документ, несущий большой информационный объем в небольшом физическом, это более экономно, но в то же время влечет за собой трудности восприятия текста. В печатных текстах компактность достигается уменьшением свободных полей, применением более мелкого шрифта. Современные технические средства позволяют использовать документы с небольшими габаритами (микропленка, CD-ROM и т.д.), включающие чрезвычайно масштабный информационный объем.

Информационная емкость текста измеряется подсчетом слов и словосочетаний, несущих в тексте основную смысловую нагрузку — дескрипторов. Дескрипторы различаются по значимости. Чем более значим дескриптор, тем чаще он встречается в тексте. Формула информационной емкости текста — это произведение общего числа элементов текста на среднюю их

повторяемость. Полный список проранжированных по значимости дескрипторов есть тезаурус.

Если в числителе записать величину информационной емкости, а в знаменателе — информационного объема, то в результате получится новая характеристика текста — информационная плотность. Наиболее плотен тот текст, в котором содержится наибольшее чисто дескрипторов на единицу объема. И, наоборот, менее плотен тот текст, в котором большую его часть составляют недескрипторы — служебные, вспомогательные элементы текста. Они не несут особой смысловой нагрузки, поэтому в процессе чтения внимание на них не задерживается.

Документ с малой плотностью легко просматривать, быстро листая страницы. При большой плотности текст сразу прочесть невозможно, приходится его откладывать, осмысливать, возвращаться к нему.

Информационная плотность текста зависит от языка, стиля, жанра, отраслевой принадлежности и т.д. Например, текст на английском языке, как правило, более плотен, чем на немецком. Тексты технического, естественнонаучного содержания более плотны, нежели гуманитарные. На протяжении текста большого произведения плотность меняется. Сначала она медленно возрастает, достигая максимума приблизительно к концу первой трети объема, потом идет на убыль, достигая минимума перед концом, а в самом конце наблюдается всплеск за счет резюмирующей части. Изменение плотности текста видно по числу дескрипторов — если в оборот вводится больше дескрипторов, чем выводится, плотность возрастает и наоборот.

Важнейшим параметром, характеризующим качество текста документов, является их информативность. Проблема информативности документа и способов ее повышения привлекала в последние годы достаточное внимание специалистов, были сделаны попытки дать определение понятия информативности документа, предложить способы ее измерения, указать причины низкой информативности существующих документов и наметить пути ее повышения.

Информативность — сложная характеристика документа, так как она связана с получением субъектом информации.

Существующие определения понятия информативности документа сводятся к следующему: это количество информации, содержащейся в документе, новой для данного потребителя.

Документ может объективно нести новые знания, новую информацию. Ее удельный вес определяется отношением новой информации, содержащейся в документе, ко всей информации, помещенной в документе. Таким образом, можно выяснить степень насыщенности текста документа новой информацией. Под новой информацией может подразумеваться информация, ранее публиковавшаяся, но по разным причинам неизвестная читателю, т.е. субъективно новая. В таком случае, информативность может рассматриваться как количество новой для данного потребителя информации, рассматриваемое как отношение новой информации ко всей сумме знаний, имеющихся у потребителя по этому вопросу.

Таким образом, информативен или нет документ, - решает потребитель. Потребитель считает документ информативным, если даже частично удовлетворяется его информационная потребность. Причем, документы, информативнее для одних, могут быть совершенно неинформативными для других.

Парадоксальным является тот факт, что некоторые документы имеют высокую степень информативности в оценке потребителей, несмотря на то, что создатели на такой эффект не рассчитывали. Это объясняется творческим характером чтения, возможностью читать «между строк», «домысливать», продуцировать сложные ассоциации, выходя на принципиально иной уровень понимания текста, отличающийся от задуманного автором.

Необходимым условием реализации информативности документа является доступность его текста. Доступность текста, в частности, обеспечивается отсутствием или малым количеством избыточной информации, разумным соотношением новой и уже известной потребителю информации, правильным выбором структуры документа, логичностью, последовательностью изложения, языковой корректностью, точностью терминологии, отсутствием громоздких построений, умеренностью в употреблении сложных словосочетаний.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow