
В настоящее время применяется и кодовая таблица, размещенная на странице СР866 стандарта кодирования текстовой информации, которая используется в операционной системе MS DOS или сеансе работы MS DOS для кодирования кириллицы.
![]() |
Национальная часть кодовой таблицы СР866
В настоящее время для кодирования кириллицы наибольшее распространение получила кодовая таблица, размещенная на странице СР1251 соответствующего стандарта, которая используется в операционных системах семейства Windows фирмы Microsoft.
Национальная часть кодовой таблицы СР1251

Во всех представленных кодовых таблицах, кроме таблицы стандарта Unicode, для кодирования одного символа отводится 8 двоичных разрядов (8 бит).
В мире существует примерно 6800 различных языков. Если прочитать текст, напечатанный в Японии на компьютере в России или США, то понять его будет нельзя. Чтобы буквы любой страны можно было читать на любом компьютере, для их кодировки стали использовать 2 байта (16 бит).
N = 2i
2i = 216 = 65536
N = 65536 N – мощность алфавита символов в кодовой таблице Unicode.
i – информационный вес символа
Основополагающая таблица использования кодового пространства Unicode
| Начало области | Конец области | Набор символов | Начало области | Конец области | Набор символов |
| 0000 | 007F | Basic Latin | 2150 | 218F | Number Forms |
| 0080 | 00FF | Latin-1 Supplement | 2190 | 21FF | Arrows |
| 0100 | 017F | Latin Extended-A | 2200 | 22FF | Mathematical Operators |
| 0180 | 024F | Latin Extended-B | 2300 | 23FF | Miscellaneous Technical |
| 0250 | 02AF | IPA Extensions | 2400 | 243F | Control Pictures |
| 02B0 | 02FF | Spacing Modifier Letters | 2440 | 245F | Optical Character Recognition |
| 0300 | 036F | Combining Diacritical Marks | 2460 | 24FF | Enclosed Alphanumerics |
| 0370 | 03FF | Greek | 2500 | 257F | Box Drawing |
| 0400 | 04FF | Cyrillic | 2580 | 259F | Block Elements |
| 0530 | 058F | Armenian | 25A0 | 25FF | Geometric Shapes |
| 0590 | 05FF | Hebrew | 2600 | 26FF | Miscellaneous Symbols |
| 0600 | 06FF | Arabic | 2700 | 27BF | Dingbats |
| 0700 | 074F | Syriac | 2800 | 28FF | Braille Patterns |
| 0780 | 07BF | Thaana | 2E80 | 2EFF | CJK Radicals Supplement |
| 0900 | 097F | Devanagari | 2F00 | 2FDF | Kangxi Radicals |
| 0980 | 09FF | Bengali | 2FF0 | 2FFF | Ideographic Description Characters |
| 0A00 | 0A7F | Gurmukhi | 3000 | 303F | CJK Symbols and Punctuation |
| 0A80 | 0AFF | Gujarati | 3040 | 309F | Hiragana |
| 0B00 | 0B7F | Oriya | 30A0 | 30FF | Katakana |
| 0B80 | 0BFF | Tamil | 3100 | 312F | Bopomofo |
| 0C00 | 0C7F | Telugu | 3130 | 318F | Hangul Compatibility Jamo |
| 0C80 | 0CFF | Kannada | 3190 | 319F | Kanbun |
| 0D00 | 0D7F | Malayalam | 31A0 | 31BF | Bopomofo Extended |
| 0D80 | 0DFF | Sinhala | 3200 | 32FF | Enclosed CJK Letters and Months |
| 0E00 | 0E7F | Thai | 3300 | 33FF | CJK Compatibility |
| 0E80 | 0EFF | Lao | 3400 | 4DB5 | CJK Unified Ideographs Extension A |
| 0F00 | 0FFF | Tibetan | 4E00 | 9FFF | CJK Unified Ideographs |
| 1000 | 109F | Myanmar | A000 | A48F | Yi Syllables |
| 10A0 | 10FF | Georgian | A490 | A4CF | Yi Radicals |
| 1100 | 11FF | Hangul Jamo | AC00 | D7A3 | Hangul Syllables |
| 1200 | 137F | Ethiopic | D800 | DB7F | High Surrogates |
| 13A0 | 13FF | Cherokee | DB80 | DBFF | High Private Use Surrogates |
| 1400 | 167F | Unified Canadian Aboriginal Syllabics | DC00 | DFFF | Low Surrogates |
| 1680 | 169F | Ogham | E000 | F8FF | Private Use |
| 16A0 | 16FF | Runic | F900 | FAFF | CJK Compatibility Ideographs |
| 1780 | 17FF | Khmer | FB00 | FB4F | Alphabetic Presentation Forms |
| 1800 | 18AF | Mongolian | FB50 | FDFF | Arabic Presentation Forms-A |
| 1E00 | 1EFF | Latin Extended Additional | FE20 | FE2F | Combining Half Marks |
| 1F00 | 1FFF | Greek Extended | FE30 | FE4F | CJK Compatibility Forms |
| 2000 | 206F | General Punctuation | FE50 | FE6F | Small Form Variants |
| 2070 | 209F | Superscripts and Subscripts | FE70 | FEFE | Arabic Presentation Forms-B |
| 20A0 | 20CF | Currency Symbols | FEFF | FEFF | Specials |
| 20D0 | 20FF | Combining Marks for Symbols | FF00 | FFEF | Halfwidth and Fullwidth Forms |
| 2100 | 214F | Letterlike Symbols | FFF0 | FFFD | Specials |
Использование Unicode значительно упрощает создание многоязычных документов, публикаций и программных приложений.
Рассмотрим примеры.
1) Представьте в форме шестнадцатеричного кода слово «ЭВМ» во всех пяти кодировках. Воспользуемся компьютерным калькулятором для перевода чисел из десятичной в шестнадцатеричную систему счисления.
Последовательности десятичных кодов слова «ЭВМ» в различных кодировках составляем на основе кодировочных таблиц:
КОИ8-Р: 252 247 237
СР1251: 221 194 204
СР866: 157 130 140
Мас: 157 130 140
ISO: 205 178 188
Переводим с помощью калькулятора последовательности кодов из десятичной системы в шестнадцатеричную:
КОИ8-Р: FC F7 ED
СР1251: DD C2 CC
СР866: 9D 82 8C
Мас: 9D 82 8C
ISO: CD B2 BC
2) Определить числовой код символа в кодировке Unicode с помощью текстового редактора Microsoft Word.
1. В операционной системе Windows запустить текстовый редактор Microsoft Word.
2. В текстовом редакторе Microsoft Word ввести команду [ Вставка-Символ… ]. На экране появится диалоговое окно Символ. Центральную часть диалогового окна занимает фрагмент таблицы символов.

3. Для определения числового кола знака кириллицы с помощью раскрывающегося списка Набор: выбрать пункт кириллица.
4. Для определения шестнадцатеричного числового кода символа в кодировке Unicode с помощью раскрывающегося списка из: выбрать тип кодировки Юникод (шестн.).
5. В таблице символов выбрать символ Э. В текстовом поле код знака: появится его шестнадцатеричный числовой код (в данном случае 042D).
Примеры решение задач







