Национальная часть кодовой таблицы стандарта КОИ8-Р

В настоящее время применяется и кодовая таблица, размещенная на странице СР866 стандарта кодирования текстовой информации, которая используется в операционной системе MS DOS или сеансе работы MS DOS для кодирования кириллицы.

Национальная часть кодовой таблицы СР866

В настоящее время для кодирования кириллицы наибольшее распространение получила кодовая таблица, размещенная на странице СР1251 соответствующего стандарта, которая используется в операционных системах семейства Windows фирмы Microsoft.

Национальная часть кодовой таблицы СР1251

Во всех представленных кодовых таблицах, кроме таблицы стандарта Unicode, для кодирования одного символа отводится 8 двоичных разрядов (8 бит).

В мире существует примерно 6800 различных языков. Если прочитать текст, напечатанный в Японии на компьютере в России или США, то понять его будет нельзя. Чтобы буквы любой страны можно было читать на любом компьютере, для их кодировки стали использовать 2 байта (16 бит).

N = 2i

2i = 216 = 65536

N = 65536 N – мощность алфавита символов в кодовой таблице Unicode.

i – информационный вес символа

Основополагающая таблица использования кодового пространства Unicode

Начало области	Конец области	Набор символов	Начало области	Конец области	Набор символов
0000	007F	Basic Latin	2150	218F	Number Forms
0080	00FF	Latin-1 Supplement	2190	21FF	Arrows
0100	017F	Latin Extended-A	2200	22FF	Mathematical Operators
0180	024F	Latin Extended-B	2300	23FF	Miscellaneous Technical
0250	02AF	IPA Extensions	2400	243F	Control Pictures
02B0	02FF	Spacing Modifier Letters	2440	245F	Optical Character Recognition
0300	036F	Combining Diacritical Marks	2460	24FF	Enclosed Alphanumerics
0370	03FF	Greek	2500	257F	Box Drawing
0400	04FF	Cyrillic	2580	259F	Block Elements
0530	058F	Armenian	25A0	25FF	Geometric Shapes
0590	05FF	Hebrew	2600	26FF	Miscellaneous Symbols
0600	06FF	Arabic	2700	27BF	Dingbats
0700	074F	Syriac	2800	28FF	Braille Patterns
0780	07BF	Thaana	2E80	2EFF	CJK Radicals Supplement
0900	097F	Devanagari	2F00	2FDF	Kangxi Radicals
0980	09FF	Bengali	2FF0	2FFF	Ideographic Description Characters
0A00	0A7F	Gurmukhi	3000	303F	CJK Symbols and Punctuation
0A80	0AFF	Gujarati	3040	309F	Hiragana
0B00	0B7F	Oriya	30A0	30FF	Katakana
0B80	0BFF	Tamil	3100	312F	Bopomofo
0C00	0C7F	Telugu	3130	318F	Hangul Compatibility Jamo
0C80	0CFF	Kannada	3190	319F	Kanbun
0D00	0D7F	Malayalam	31A0	31BF	Bopomofo Extended
0D80	0DFF	Sinhala	3200	32FF	Enclosed CJK Letters and Months
0E00	0E7F	Thai	3300	33FF	CJK Compatibility
0E80	0EFF	Lao	3400	4DB5	CJK Unified Ideographs Extension A
0F00	0FFF	Tibetan	4E00	9FFF	CJK Unified Ideographs
1000	109F	Myanmar	A000	A48F	Yi Syllables
10A0	10FF	Georgian	A490	A4CF	Yi Radicals
1100	11FF	Hangul Jamo	AC00	D7A3	Hangul Syllables
1200	137F	Ethiopic	D800	DB7F	High Surrogates
13A0	13FF	Cherokee	DB80	DBFF	High Private Use Surrogates
1400	167F	Unified Canadian Aboriginal Syllabics	DC00	DFFF	Low Surrogates
1680	169F	Ogham	E000	F8FF	Private Use
16A0	16FF	Runic	F900	FAFF	CJK Compatibility Ideographs
1780	17FF	Khmer	FB00	FB4F	Alphabetic Presentation Forms
1800	18AF	Mongolian	FB50	FDFF	Arabic Presentation Forms-A
1E00	1EFF	Latin Extended Additional	FE20	FE2F	Combining Half Marks
1F00	1FFF	Greek Extended	FE30	FE4F	CJK Compatibility Forms
2000	206F	General Punctuation	FE50	FE6F	Small Form Variants
2070	209F	Superscripts and Subscripts	FE70	FEFE	Arabic Presentation Forms-B
20A0	20CF	Currency Symbols	FEFF	FEFF	Specials
20D0	20FF	Combining Marks for Symbols	FF00	FFEF	Halfwidth and Fullwidth Forms
2100	214F	Letterlike Symbols	FFF0	FFFD	Specials

Использование Unicode значительно упрощает создание многоязычных документов, публикаций и программных приложений.

Рассмотрим примеры.

1) Представьте в форме шестнадцатеричного кода слово «ЭВМ» во всех пяти кодировках. Воспользуемся компьютерным калькулятором для перевода чисел из десятичной в шестнадцатеричную систему счисления.

Последовательности десятичных кодов слова «ЭВМ» в различных кодировках составляем на основе кодировочных таблиц:

КОИ8-Р: 252 247 237

СР1251: 221 194 204

СР866: 157 130 140

Мас: 157 130 140

ISO: 205 178 188

Переводим с помощью калькулятора последовательности кодов из десятичной системы в шестнадцатеричную:

КОИ8-Р: FC F7 ED

СР1251: DD C2 CC

СР866: 9D 82 8C

Мас: 9D 82 8C

ISO: CD B2 BC

2) Определить числовой код символа в кодировке Unicode с помощью текстового редактора Microsoft Word.

1. В операционной системе Windows запустить текстовый редактор Microsoft Word.

2. В текстовом редакторе Microsoft Word ввести команду [ Вставка-Символ… ]. На экране появится диалоговое окно Символ. Центральную часть диалогового окна занимает фрагмент таблицы символов.

3. Для определения числового кола знака кириллицы с помощью раскрывающегося списка Набор: выбрать пункт кириллица.

4. Для определения шестнадцатеричного числового кода символа в кодировке Unicode с помощью раскрывающегося списка из: выбрать тип кодировки Юникод (шестн.).

5. В таблице символов выбрать символ Э. В текстовом поле код знака: появится его шестнадцатеричный числовой код (в данном случае 042D).

Примеры решение задач