В настоящее время огромные объемы данных накапливаются в учетных, так называемых транзакционных (OLTP), системах.
Такие системы строятся на основе современных СУБД, в которых развит механизм управления транзакциями, что сделало их основным средством создания систем оперативной обработки транзакций (OLTP-систем, On-Line Transactions Processing).
Основной задачей таких систем является обеспечение выполнения операций с БД. В таких системах почти всегда предусмотрены и поисковые функции, в том числе позволяющие выводить некоторую итоговую и агрегированную информацию.
Но возможности таких систем для выполнения комплексного, углубленного анализа данных, позволяющего принимать обоснованные решения, ограничены.
Без продуктивной переработки и анализа колоссальные потоки информационной руды, т.е. сырые данные, образуют никому не нужную свалку.
В связи с этим возникла необходимость создания аналитических систем, которые бы позволяли превратить сырые данные в полезные информацию и знания, на основе которых можно принимать управленческие решения.
|
|
Анализ данных в той или иной степени проводится во многих информационных системах, в том числе и в OLTP-системах. Но виды анализа данных различаются в зависимости от гибкости и глубины проводимого анализа.
Информационно-поисковый анализ - анализ данных, проводимый по заранее определенным, т.е. заранее заданным видам запросов (регламентированным запросам).
Оперативно-аналитический анализ – анализ данных, который требует формирования нерегламентированных запросов, когда невозможно заранее предсказать, какие запросы понадобятся пользователю.
Интеллектуальный анализ – глубокий анализ данных, позволяющий получать из имеющихся данных скрытые для пользователя знания, такие как:
§ функциональные и логические закономерности в накопленных данных;
§ модели и правила, объясняющие найденные закономерности;
§ прогнозы развития процессов.
Сравнение характеристик различных видов анализа данных иллюстрирует таблица 1.1.
Таблица 1.1 - Сравнение видов анализа данных
Характеристики | Виды анализа данных | ||
Информационно-поисковый анализ | Оперативно-аналитический анализ | Интеллектуальный анализ | |
Виды запросов | Регламентированные | Нерегламентированные | Глубокий анализ |
Вид получаемых данных | Выборки сырых данных | Обобщенная, сгруппированная, агрегированная информация | Модели, шаблоны, закономерности, знания |
Решаемые задачи | Получение выборок данных | Грубый разведочный анализ, проверка заранее сформулированных гипотез | Получение новых, нетривиальных, скрытых знаний |
Уровень интерактивности | Низкий | Интерактивное взаимодействие с информацией | Интерактивное взаимодействие с информацией |
Таблица 1.1 - Сравнение видов анализа данных
|
|
Роль компьютера | Извлечение данных | Извлечение данных, визуализация данных | Извлечение данных, визуализация данных, обработка данных математическими методами |
Подбор моделей и обработка данных | Пользователь | Пользователь | Компьютер |
Применяемые методы анализа | Элементарные статистики | Математическая статистика | Методы Data Mining |
В соответствии с рассмотренными выше видами анализа данных аналитические системы можно разделить на следующие группы:
1. Системы корпоративной отчетности:
§ используются для контроля оперативной ситуации и анализа отклонений (отвечают на вопрос «что происходит»);
§ предоставляют оперативные данные о результатах деятельности в виде заранее заданных форм отчетности;
§ базируются на информационно-поисковом анализе данных;
§ могут не использовать хранилище данных, а брать данные непосредственно из OLTP-систем;
§ предназначены для широкого круга конечных пользователей (клиенты, партнеры, фискальные учреждения).
2. Системы аналитической обработки данных и аналитической отчетности (OLAP-системы – системы оперативной аналитической обработки, On-Line Analytical Processing):
§ позволяют выполнять многомерный анализ данных по различным срезам;
§ обладают развитыми средствами аналитической отчетности и визуализации данных в виде различных типов таблиц, графиков и диаграмм;
§ базируются на оперативно-аналитическом анализе данных;
§ чаще всего используют хранилище данных, оптимизированное под задачи многомерного анализа данных;
§ ориентированы на пользователей, которым требуется постоянное интерактивное взаимодействие с информацией (менеджеры, аналитики).
3. Системы глубокого анализа данных:
§ обладают развитыми инструментами для проведения глубокого анализа;
§ позволяют получить нетривиальные, скрытые знания;
§ используют хранилище данных в качестве источника информации;
§ базируются на интеллектуальном анализе данных;
§ предназначены для аналитиков, обладающих знаниями в области методов анализа данных;
§ позволяют создавать законченные приложения для конечных пользователей в виде построенных моделей, шаблонов и отчетов.
Схематичное описание разделения аналитических систем по вышепредставленным группам отображено на рисунке 1.1.1.
OLAP (On-Line Analytical Processing) – технология оперативной аналитической обработки данных, использующая методы и средства сбора, хранения и анализа многомерных данных, в целях поддержки аналитической деятельности и возможности формирования нерегламентированных запросов и отчетов на их основе.
Системы корпоративной отчетности |
Регламентированные запросы |
OLAP-системы, аналитическая отчетность |
Нерегламентированные запросы |
Системы глубокого анализа данных |
Data Mining |
Таблицы |
Графики |
Диаграммы |
Модели |
Шаблоны |
Правила |
Интерпретация результатов анализа пользователями |
Аналитические системы |
Рисунок 1.1.1 – Виды аналитических систем
OLAP-системы создаются для конечных пользователей и аналитиков, предоставляя им инструменты для анализа данных и проверки возникающих гипотез.
Известен тест, созданный в 1995 году, определяющий критерии, по которым систему можно отнести к классу OLAP-систем.
Этот тест получил название FASMI (Fast Analysis of Shared Multidimensional Information) (быстрый анализ совместно используемой многомерной информации) и в настоящее время широко используется.
В соответствии с тестом FASMI OLAP определяется пятью ключевыми словами:
§ Fast (Быстрый);
§ Analysis (Анализ);
§ Shared (Разделяемой);
§ Multidimensional (Многомерной);
|
|
§ Information (Информации).
Схематичное представление теста изображено на рисунке 1.1.2.
OLAP-система |
Fast (Быстрый) |
Analysis (Анализ) |
Shared (Разделяемой) |
Multidimensional (Многомерной) |
Information (Информации) |
Рисунок 1.1.2 – Тест FASMI.
1. Fast (Быстрый)
OLAP-система должна обеспечить выдачу ответов на большинство запросов в пределах приблизительно 5 секунд. Для простых запросов этот показатель может быть 1 секунда, а для редкостных по сложности запросов он может достигать 20 секунд.
Исследования показывают, что если отклик не получен в течение 30 секунд, то пользователь перестает считать систему полезной. Он способен нажать комбинацию клавиш <Ctrl>+<Alt>+<Del>, если система не предупредит, что обработка данных требует большего времени.
Но даже если система предупредит пользователя о продолжительном времени обработки аналитического запроса, пользователь может отвлечься и потерять мысль, что негативно скажется на качестве анализа.
Такой скорости обработки нелегко достигнуть на огромных массивах данных, особенно если требуются нестандартные и сложные запросы, формируемые «на лету».
Для достижения данной цели разработчики OLAP-систем используют разные методы:
- динамическая предобработка данных;
- создание специальных программно-аппаратных решений;
- применение аппаратных платформ с большей производительностью.
Критерий скорости является наиболее критическим в определении принадлежности системы к классу OLAP.
2. Analysis (Анализ).
OLAP-система должна справляться с любым логическим и статистическим анализом, характерным для данной прикладной области.
Все требуемые функциональные возможности анализа должны обеспечиваться понятным для пользователя способом.
OLAP-система должна обладать гибкостью в выдаче графических результатов анализа и позволять формировать отчеты любым желаемым способом без необходимости программирования.
3. Shared (Разделяемой).
OLAP-система должна работать в многопользовательском режиме, в связи с чем особо встает вопрос обеспечения конфиденциальности информации и наличия в таких системах средств защиты информации (права доступа, авторизация доступа и т.д.).
|
|
4. Multidimensional (Многомерной).
OLAP-система должна обеспечивать многомерное представление данных. Речь не идет о числе измерений многомерной модели данных или размерах каждого измерения. Это зависит от конкретной прикладной области и решаемых аналитических задач.
5. Information (Информации).
OLAP-система должна обеспечивать получение необходимой информации в условиях реального приложения.
Мощность OLAP-системы определяется количеством входных данных, которые она может обработать. Способности OLAP-систем к обработке информации разнятся в 1000 раз, что определяется множеством факторов, включая требуемую оперативную память, использование дискового пространства, интеграцию с хранилищами данных и другими аналитическими компонентами.
Таким образом, в тесте FASMI сделан акцент на такие важные свойства OLAP-систем как скорость обработки, многопользовательский доступ, релевантность информации, наличие средств статистического анализа и многомерность, т.е. представление анализируемых фактов как функций от большого числа их характеризующих параметров.