Индексация и кодирование данных

Для удобства систематизации интересующих нас объектов, а также удобства пользования классификаторами каждый из них должен быть дополнен системой индексации и кодирования, т.е. средствами и правилами краткого условного обозначения как классифицируемых объектов, так и разделов (рубрик) самого классификатора. Система индексации и кодирования образует как бы особый, дополнительный алфавит, который заменяет собой знаки естественного языка (обычные слова) некоторыми условными, как правило, более краткими буквенными, цифровыми или смешанными обозначениями, удобными для расположения их в некотором порядке, облегчающем поиск нужных объектов и пользование ими.

Кодом называется система индексации (или, как говорят, шифровки) объектов классификации – общая совокупность кратких обозначений и правил их построения.

Индексом (шифром) называется условное обозначение конкретного объекта.

Вид и характер кода, который будет применяться для обозначения и идентификации (распознавания) классифицируемых объектов, определяется принятой структурой классификатора.

Принимаемый код характеризуется:

● общим числом символов кодового алфавита А, который будет использоваться при формировании индексов классифицируемых объектов. Символами его могут быть любые – буквенные, цифровые и прочие условные обозначения;

● длиной используемого шифра n – числом знаков или разрядов – букв, цифр и иных знаков, которые должны входить в состав кодовой комбинации (индекса), изображающей и обозначающей условное «имя» объекта, включаемого в классификатор в ходе проводимой систематизации наблюдаемого множества реальных объектов;

● основанием классификации a – возможным числом элементов, включаемых в одну рубрику классификатора.

Величина основания классификации обычно связывается с мощностью алфавита кода, хотя это и не обязательно. Например, если алфавит состоит из А символов, то основание классификации может быть принято равным а=Аk, где k – целое положительное число, равное числу уровней классификационного дерева.

Для кодирования экономической информации, как правило, применяются десятичные коды, в которых мощность алфавита А=10. При этом образуются классификаторы с основанием а=10k, где k=1,2,3,… - число уровней классификации (дерева).

Это означает, что на каждом уровне каждой классификационной рубрики может разместиться до 10 классифицируемых объектов, каждый из которых сможет при этом получить собственное имя, не совпадающее с именами других объектов.

При этом на высших уровнях могут быть обозначены классы, подклассы, виды, подвиды, группы, подгруппы и т.д. На низших уровнях будут располагаться непосредственно элементы классифицируемого множества. Число уровней на разных ветвях дерева может быть различным.

Длина шифра n зависит от количества элементов классифицируемого множества и степени использования рубрик и уровней классификатора. Степень использования, в свою очередь, будет определяться относительным числом включаемых в классификатор резервных (пустых) ветвей. Наличие резервных ветвей необходимо в интересах последующего его развития с тем, чтобы при обнаружении ранее не учтенных объектов для них всегда можно было найти в классификаторе свободное место и свободный индекс. В противном случае классификатор не будет обладать гибкостью, и каждое пополнение классифицируемого множества будет требовать полной его переработки и замены.

В идеальном случае при полном использовании классификатора длина шифра будет равна:

n=logaM,

где М – количество элементов классифицируемого множества.

При неполном использовании емкости классификатора (при наличии резервных ветвей) длина шифра будет

n p logaM.

Такой классификатор обеспечивает однозначность кодирования всех элементов (единственность имени каждого из них) и соответственно легкость их идентификации.

Если к классификатору не предъявляется требования однозначности кодирования (несовпадения шифров, присваиваемых каждому элементу), то

n p logaM/p,

где р – число элементов, для которых допустимо применять одинаковый классификационный шифр (индекс).

Минимальное число ступеней иерархи для классификатора, однородного на каждом уровне (сохраняющего однозначность кодирования), определяется из условия:

а1×а2×…×аi×…×аm=М,

где аi – основание классификации на уровне i.

При а12=…аi=…аm=а m p logaM=n, т.е. совпадает с длиной шифра.

Число ветвей классификационного дерева должно быть не меньше числа элементов классифицируемого множества.

Количество резервных ветвей классификатора определяется с учетом динамики возрастания мощности классифицируемого множества.

Определение необходимого количества резервных ветвей и их расположения на классификационном дереве является довольно сложной задачей, не имеющей пока формализованного решения.

Наибольшие трудности возникают перед разработчиком классификатора при выборе делящих признаков в каждой из вершин «дерева». На практике этот выбор производится на основании опыта и интуиции разработчика либо на основе сложившихся традиций.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: