Одиниці вимірювання даних
Одиниці представлення даних
Файли і файлова структура
Існує безліч систем представлення даних. З однією з них, прийнятою в інформатиці і обчислювальній техніці, двійковим кодом, ми познайомилися вище. Найменшою одиницею такого уявлення є біт (двійковий розряд).
Сукупність двійкових розрядів, що виражають числові або інші дані, утворює якийсь бітовий малюнок. Практика показує, що з бітовим уявленням зручніше працювати, якщо цей малюнок має регулярну форму. В даний час як такі форми використовуються групи з восьми бітів, які називаються байтами.
Десяткове число | Двійкове число | Байт |
0000 0001 | ||
0000 0010 | ||
1111 1111 |
Поняття про байт, як групу взаємозв'язаних бітів, з'явилося разом з першими зразками електронної обчислювальної техніки. Довгий час воно було машинний - залежним, тобто для разных обчислювальних машин довжина байта була різною. Тільки в кінці 60-х років поняття байта стало універсальним і маишнно незалежним.
Вище ми бачили, що у багатьох випадках доцільно використовувати не восьмиразрядное кодування, а 16-розрядне, 24-розрядне, 32-розрядне і більш. Група з 16 взаємозв'язаних біт (двох взаємозв'язаних байтів) в інформатиці называется словом. Відповідно, групи з чотирьох взаємозв'язаних байтів (32 розряди) називаються подвоєним словом, а групи з восьми байтів (64 розряди) —учетверенным словом. Поки, на сьогоднішній день, таку систему позначення досить.
Існує багато різних систем і одиниць вимірювання даних. Кожна научная дисципліна і кожна область людської діяльності може використовувати свої, найбільш зручні або традиційно сталі одиниці. У інформатиці для вимірювання даних використовують той факт, що різні типи даних мають универсальное двійкове уявлення, і тому вводять свої одиниці даних, основанные на нім.
Найменшою одиницею вимірювання є байт. Оскільки одним байтом, як правило, кодується один символ текстової інформації, то для текстових документів розмір в байтах відповідає лексичному об'єму в символах (поки исключение представляє розглянуте вище універсальне кодування UNICODE.
Крупніша одиниця вимірювання — кілобайт (Кбайт - 1024 байти.
У кілобайтах вимірюють порівняно невеликі об'єми даних. Умовно можна вважати, що одна сторінка неформатованого машинописного тексту складає близько 2 Кбайт.
інші крупні одиниці вимірювання даних утворюються додаванням префіксів мета-) гига-, тера-
1 Мбайт = 1024 Кбайт = 220байт
1 Гбайт =1024 Мбайт = 230байт
1Тбайт = 1024 Гбайт = 240байт
При зберіганні даних вирішуються дві проблеми: як зберегти дані в найбільш компактному вигляді і як забезпечити до них зручний і швидкий доступ (якщо доступ не забезпечений, то це не зберігання). Для забезпечення доступу необхідно, щоб дані мали впорядковану структуру.
Оскільки адресні дані теж мають розмір і теж підлягають зберіганню, зберігати дані у вигляді дрібних одиниць, таких, як байти, незручно. Їх незручно зберігати і в крупніших одиницях (кілобайтах, мегабайтах і т. п.), оскільки неповне заповнення однієї одиниці зберігання приводить до неефективності зберігання.
Як одиниця зберігання даних прийнятий об'єкт змінної довжини, званий файлом. Файл — це послідовність довільного числа байтів, унчикальным, що володіє, власним, ім'ям. Зазвичай в окремому файлі зберігають дані, относящиеся до одного типу. В цьому випадку тип даних визначає тип файлу.
Найпростіше уявити собі файл у вигляді безрозмірного канцелярського досьє, в яке можна за бажанням додавати вміст або витягувати його звідти. Оскільки у визначенні файлу немає обмежень на розмір, можна уявити собі файл, що має 0 байтів (порожній файл), і файл, що має будь-яке число байтів.
У визначенні файлу особлива увага приділяється імені. Воно фактично несе в Собі адресні дані, без яких дані, що зберігаються у файлі, не стануть інформацією через відсутність методу доступу до них. Окрім функцій, пов'язаних з адресацией, ім'я файлу може зберігати і зведення про тип даних, увязнених в нім. Для автоматичних засобів роботи з даними це важливо, оскільки по імені файлу вони можуть автоматично визначити адекватний метод витягання информации з файлу.