Понятие данных
Основные понятия
Информационные системы предназначены для хранения, выборки и модификации постоянно существующей информации.
Восприятие реального мира можно соотнести с последовательностью разных (часто взаимосвязанных) явлений. Эти явления всегда стремились описать (даже если не всегда понятна причина явления).
Такие описания внешних явлений образуют данные – они хранятся и обрабатываются.
Описание внешних явлений (данных) включает два элемента:
– разрозненные факты, хранящиеся в ЭВМ (значения);
– смысл данных (интерпретация данных, их семантика).
Часто используется как синоним термина «данные» термин «информация».
Описание данных требует использование некоторого языка. Описание данных на естественном языке позволяет значения данных (факты) и их семантику фиксировать вместе, так как естественный язык достаточно гибок для этих целей. Например, мы можем сказать: «Его рост 185 см». Здесь 185 – значение данных, фраза «Его рост … см» – семантика данных. Мы связали значение с семантикой, и становится понятен и смысл данных, и что с ними можно делать.
|
|
Нередко данные и их семантика разделены, и такое разделение можно встретить и в нашей обычной жизни. Например, расписание движения пассажирских поездов может быть представлено в виде следующей таблицы:
Номер поезда | Станция назначения | Категория поезда | Дни отправления | Время отправления | Время в пути | Время прибытия |
Вологда | Пассажирский | По четным | 19.40 | 07.30 | ||
… | … | … | … | … | … | … |
Если такая таблица большая, строки в ее нижней части уже тяжело читать – забывается смысл колонок, т.е. семантика данных. Если же семантика отсутствует (включена где-то в другом, недоступном в данный момент месте), такие данные вообще невозможно понять.
Применение ЭВМ для хранения и обработки данных приводит к еще большему разделению значений данных и их семантики. Компьютеры чаще всего имеют дело со значениями данных; большая часть их семантики как таковая вообще не фиксируется в ЭВМ. Например, если решается некоторая математическая задача моделирования (дифференциальное уравнение, описывающее некоторый реальный процесс), интерпретация полученных в результате решения значений возлагается на пользователя.
В ранних системах (файловых) данные и семантика разделены:
– семантика отражается в приложениях, обрабатывающих данные,
– никаких способов осмысленного доступа к данным, кроме как через приложение, нет.
Файловые системы можно определить как набор программ, которые выполняют для пользователя некоторые операции, связанные с обработкой данных. При этом каждая программа определяет свои собственные данные и управляет ими.
|
|
Ограничения, присущие таким системам:
– разделение и изоляция данных,
– дублирование данных,
– зависимость от файлов,
– несовместимость данных.
Причины:
1. Определение данных содержится внутри приложений, а не хранится отдельно и независимо от них.
2. Помимо приложений, не предусмотрено никаких других инструментов доступа к данным и их обработки.
Глобальная причина кроется в разрыве между значениями данных и их семантикой.