Сжатие слов и словосочетаний

· Аббревиатура

· Иероглифы

· Отбрасывание окончаний слов

· Отбрасывание часто повторяющихся букв

· Выборочное отбрасывание букв

КИБЕРНЕТИКА

КБРЕИА

КРИ

· Лексическое кодирование

При лексическом кодировании отдельные лексемы заменяются двоичными кодами

Наименование лексем Длина в байтах N-кол. лексем log2N бит
Фамилия     10 бит
Имя     7 бит
Отчество     7 бит
Должность     6 бит
Отдел     5 бит
  135байт   »5 байт

Таким образом, получили сжатие в 135/5=27 раз.

Сжатие и свертывание текста

· Библиогафическое описание (УДК, Автор, наименование, издательство)

· Аннотация (до 2/3 страницы)

· Реферат (до 16 стр., Автореферат - один печатный лист)

Сжатие массивов чисел

При сжатии массивов чисел широко используется метод Бабко. На предприятиях номенклатура (это изделия, материалы, инструменты и др.) кодируются десятичными номерами. Массивы таких чисел могут составлять десятки тысяч. Если этот массив чисел упорядочить в порядке возрастания, то последующие числа будут отличаться от предыдущих чисел только младшими разрядами. Тогда можно все повторяющиеся цифры заменить одним символом, например w.

5 5 3 8 1 4 2 5 5 3 8 1 4 2
5 5 3 8 1 4 3 w3 w5 w 6 1
5 5 3 8 1 4 5 w3
5 5 3 8 16 1  
5 5 3 8 1 6 3  

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: