Национальная часть кодовой таблицы стандарта КОИ8-Р

 

 

В настоящее время применяется и кодовая таблица, размещенная на странице СР866 стандарта кодирования текстовой информации, которая используется в операционной системе MS DOS или сеансе работы MS DOS для кодирования кириллицы.

 

Национальная часть кодовой таблицы СР866

В настоящее время для кодирования кириллицы наибольшее распространение получила кодовая таблица, размещенная на странице СР1251 соответствующего стандарта, которая используется в операционных системах семейства Windows фирмы Microsoft.


Национальная часть кодовой таблицы СР1251

Во всех представленных кодовых таблицах, кроме таблицы стандарта Unicode, для кодирования одного символа отводится 8 двоичных разрядов (8 бит).


В мире существует примерно 6800 различных языков. Если прочитать текст, напечатанный в Японии на компьютере в России или США, то понять его будет нельзя. Чтобы буквы любой страны можно было читать на любом компьютере, для их кодировки стали использовать 2 байта (16 бит).

N = 2i

2i = 216 = 65536

N = 65536 N – мощность алфавита символов в кодовой таблице Unicode.

i – информационный вес символа


Основополагающая таблица использования кодового пространства Unicode

Начало области Конец области Набор символов Начало области Конец области Набор символов
0000 007F Basic Latin 2150 218F Number Forms
0080 00FF Latin-1 Supplement 2190 21FF Arrows
0100 017F Latin Extended-A 2200 22FF Mathematical Operators
0180 024F Latin Extended-B 2300 23FF Miscellaneous Technical
0250 02AF IPA Extensions 2400 243F Control Pictures
02B0 02FF Spacing Modifier Letters 2440 245F Optical Character Recognition
0300 036F Combining Diacritical Marks 2460 24FF Enclosed Alphanumerics
0370 03FF Greek 2500 257F Box Drawing
0400 04FF Cyrillic 2580 259F Block Elements
0530 058F Armenian 25A0 25FF Geometric Shapes
0590 05FF Hebrew 2600 26FF Miscellaneous Symbols
0600 06FF Arabic 2700 27BF Dingbats
0700 074F Syriac 2800 28FF Braille Patterns
0780 07BF Thaana 2E80 2EFF CJK Radicals Supplement
0900 097F Devanagari 2F00 2FDF Kangxi Radicals
0980 09FF Bengali 2FF0 2FFF Ideographic Description Characters
0A00 0A7F Gurmukhi 3000 303F CJK Symbols and Punctuation
0A80 0AFF Gujarati 3040 309F Hiragana
0B00 0B7F Oriya 30A0 30FF Katakana
0B80 0BFF Tamil 3100 312F Bopomofo
0C00 0C7F Telugu 3130 318F Hangul Compatibility Jamo
0C80 0CFF Kannada 3190 319F Kanbun
0D00 0D7F Malayalam 31A0 31BF Bopomofo Extended
0D80 0DFF Sinhala 3200 32FF Enclosed CJK Letters and Months
0E00 0E7F Thai 3300 33FF CJK Compatibility
0E80 0EFF Lao 3400 4DB5 CJK Unified Ideographs Extension A
0F00 0FFF Tibetan 4E00 9FFF CJK Unified Ideographs
1000 109F Myanmar A000 A48F Yi Syllables
10A0 10FF Georgian A490 A4CF Yi Radicals
1100 11FF Hangul Jamo AC00 D7A3 Hangul Syllables
1200 137F Ethiopic D800 DB7F High Surrogates
13A0 13FF Cherokee DB80 DBFF High Private Use Surrogates
1400 167F Unified Canadian Aboriginal Syllabics DC00 DFFF Low Surrogates
1680 169F Ogham E000 F8FF Private Use
16A0 16FF Runic F900 FAFF CJK Compatibility Ideographs
1780 17FF Khmer FB00 FB4F Alphabetic Presentation Forms
1800 18AF Mongolian FB50 FDFF Arabic Presentation Forms-A
1E00 1EFF Latin Extended Additional FE20 FE2F Combining Half Marks
1F00 1FFF Greek Extended FE30 FE4F CJK Compatibility Forms
2000 206F General Punctuation FE50 FE6F Small Form Variants
2070 209F Superscripts and Subscripts FE70 FEFE Arabic Presentation Forms-B
20A0 20CF Currency Symbols FEFF FEFF Specials
20D0 20FF Combining Marks for Symbols FF00 FFEF Halfwidth and Fullwidth Forms
2100 214F Letterlike Symbols FFF0 FFFD Specials


 

Использование Unicode значительно упрощает создание многоязычных документов, публикаций и программных приложений.



Рассмотрим примеры.

1) Представьте в форме шестнадцатеричного кода слово «ЭВМ» во всех пяти кодировках. Воспользуемся компьютерным калькулятором для перевода чисел из десятичной в шестнадцатеричную систему счисления.

Последовательности десятичных кодов слова «ЭВМ» в различных кодировках составляем на основе кодировочных таблиц:

КОИ8-Р: 252 247 237

СР1251: 221 194 204

СР866:    157 130 140

Мас:       157 130 140

ISO:         205 178 188    

Переводим с помощью калькулятора последовательности кодов из десятичной системы в шестнадцатеричную:

КОИ8-Р: FC F7 ED

СР1251: DD C2 CC

СР866:    9D 82 8C

Мас:       9D 82 8C

ISO:         CD B2 BC

2) Определить числовой код символа в кодировке Unicode с помощью текстового редактора Microsoft Word.

1. В операционной системе Windows запустить текстовый редактор Microsoft Word.

2. В текстовом редакторе Microsoft Word ввести команду [ Вставка-Символ… ]. На экране появится диалоговое окно Символ. Центральную часть диалогового окна занимает фрагмент таблицы символов.

 

 

3. Для определения числового кола знака кириллицы с помощью раскрывающегося списка Набор: выбрать пункт кириллица.     

4. Для определения шестнадцатеричного числового кода символа в кодировке Unicode с помощью раскрывающегося списка из: выбрать тип кодировки Юникод (шестн.).

5. В таблице символов выбрать символ Э. В текстовом поле код знака: появится его шестнадцатеричный числовой код (в данном случае 042D).

 

Примеры решение задач


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: