double arrow

Аналитические ИС репортинга, OLTP, Data Mining

Аналитические информационные системы. Аналитические информационные системы применяются на стратегическом уровне управления компанией. Потребность в них возникает по мере достижения компанией достаточно высокой культуры управления. В свою очередь, внедрение таких систем стимулирует рост квалификации управляющего персонала.

Существующая классификация аналитических систем еще очень далека от совершенства. Сама задача классификации преследует цель согласовать понятия аналитических и управленческих задач и механизмов их решения. При этом основное внимание уделяется системам автоматизации для аналитиков и управленцев.

Спектр задач, традиционно называемых «аналитические и управленческие» очень широк, поэтому для их автоматизации необходим такой же широкий перечень инструментов анализа. К ним относятся:

- информационно-поисковые системы;

- системы для профессиональных аналитиков;

- системы подготовки управленческой отчетности (репортинга) и контроллинга;

- системы планирования бизнес-деятельности (в частности - бюджетирование).

По области применения тиражируемые аналитические системы можно разделить на следующие виды:

- Финансовый анализ. Это расчет финансовых показателей на основании данных финансовой отчетности предприятия. Программы этой группы можно разделить на два класса: открытые программы (содержащие инструментальные средства, с помощью которых пользователь может выполнять адаптацию методов финансового анализа, вводить дополнительные показатели, разрабатывать собственные методы анализа. Эти программы в большей степени пригодны для широкого распространения и адаптации к различным областям применения); закрытые программы, не допускающие каких-либо изменений в методах анализа, предлагающие только жестко фиксированную методику;

- Бизнес-планирование. Это разработка планов развития предприятия, инвестиционный анализ, подготовка бизнес-планов.

- Планирование и анализ маркетинга. Это обработка данных и анализ маркетинговой информации, разработка планов маркетинга. Диапазон программ, применяемых для управления маркетингом весьма широк. Среди них можно выделить следующие основные классы: анализ маркетинга (моделирование стратегии, анализ положения компании на рынке, разработка плана маркетинга); анализ продаж (информационная поддержка и анализ процесса продаж, моделирование каналов сбыта).

- Прогнозирование. Это анализ и прогноз временных рядов. Основной проблемой для пользователей программ прогнозирования является сложность математических моделей, лежащих в основе методов прогнозирования. Для того, чтобы правильно подготовить исходные данные, установить параметры и интерпретировать полученные результаты пользователь должен понимать условия и ограничения используемых моделей. По степени сложности программы прогнозирования можно разделить на два класса: профессиональные (предназначенные для пользователей, хорошо знакомых с методами математической статистики); прикладные, с которыми могут работать специалисты, не имеющие глубокой математической подготовки.

В области информационных технологий можно выделить следующие классы аналитических информационных систем хранения и анализа корпоративных данных:

- Тиражируемые аналитические системы. Распространяются как автономные программные продукты, предназначенные для аналитической обработки управленческой информации, подготовки аналитической отчетности, экспертизы и анализа решений. Наиболее развитые из этих систем имеют средства информационного обмена с внешними базами данных и могут использоваться в качестве аналитических модулей системы управления предприятием.

- Средства генерации отчетов (Reporting tools). Предназначены для получения данных в виде таблиц и диаграмм. Этот класс средств позволяет управленцам контролировать происходящие процессы, имея некоторое количество фиксированных взглядов на показатели этих процессов.

- Интегрированные аналитические системы. Аналитические системы опирающиеся на обширные структуры данных, содержащихся в информационной системе управления предприятием.

- Корпоративное хранилище данных (ХД). Корпоративное ХД (Data Warehouse) и Витрин данных.

- Инструменты добычи данных (Data Mining). Предназначены для создания гипотез на основе существующих данных. Этот класс средств наиболее сильно зависит от предметной области и структуры исходных данных.

- Системы оперативной аналитической обработки данных – OLAP (On-Line Analytical Process). Направлены на проверку гипотез, они позволяют найти данные, которые подтверждают или опровергают сформулированные управленческие гипотезы. Гипотезы могут формулироваться как очень определенно (падение прибыли произошло из–за повышения себестоимости), так и более нечетко (есть параметры деятельности, которые наиболее сильно отличают подразделение, принесшее наибольшую прибыль), в результате положительного ответа на такой вопрос можно также узнать, какое это подразделение, и какие параметры его деятельности наиболее сильно отличаются. Эта информация позволяет управленцам изменять процессы предприятия для достижения определенных целей.

- Системы операционной (транзакционной) обработки данных – OLTP(On-Line Transaction Processing).

- Системы аналитической обработки данных – DSS (Decision Support Systems, СППР).

Безусловно, что к аналитическим системам в первую очередь следует отнести OLAP, а системы анализа с управленческими возможностями относятся к управленческим OLTP или системам принятия и поддержки решений (СППР), хотя СППР это шире, чем система с наличием OLAP и управленческого OLTP.

Системы репортинга. Подготовка отчетности – одна из важнейших задач, стоящих перед организациями. Сегодня генерация отчетности и выполнение анализа это вовсе не роскошь, которую компании могут себе позволить или от которой они могут отказаться. Действительно, в той или иной форме отчетность требуется как для всего бизнеса, и так для различных слагающих его частей – будь-то корпоративное транзакционное приложение, база данных или же процесс, исполняемый на регулярной основе.

После ее выхода из сферы влияния OLAP и других аналитических технологий послужили причиной возрастания интереса бизнес-менеджеров к решениям по подготовки отчетности, которые охватывают все аспекты бизнеса. В наше время их наличие считается обязательным, а сами они рассматриваются как корпоративный стандарт наряду с другими базовыми технологиями. Очевидно, что различные типы отчетности – аналитическая, корпоративная и бизнес-отчетность – должны быть четко определены, чтобы их можно было сопоставлять и соотносить с различными инструментами подготовки отчетности.

Рынок систем репортинга. Рынок средств подготовки отчетности и анализа уже сложился. Компаниям – потребителям есть из чего выбирать – рынок «ломится» от поставщиков и разработчиков платформ и приложений. Наличия столь большого количества поставщиков говорит о следующем:

- компании хотят располагать одним решением для подготовки отчетности и проведения анализа, поскольку им необходимо сократить расходы на поддержку IT и одновременно прийти к одной стандартной платформе отчетности;

- поставщики желают, чтобы их продукты были выбраны в качестве стандарта для подготовки отчетности и проведения анализа. Проще говоря, поставщик, который предлагает наиболее полное BI-решение, имеет все основания быть выбранным в качестве стандарта отчетности.

Стоит отметить, что компании создают сложности, излишне упрощая термины «отчет» и «конечный пользователь». Помимо этого, большинство компаний и крупные правительственные учреждения используют от 5 до 15 различных решений отчетности и анализа – многие, из которых в лучшем случае излишни, а в худшем – устарели и поэтому не применяются. Поэтому компании должны, прежде всего, выявить характеристики каждой пользовательской аудитории, а затем определить, какая функциональность для подготовки отчетности им необходима. Только после этого можно надлежащим образом оценить возможности поставщика «заполнить существующий пробел» или объявить его решение в качестве стандартной платформы для отчетности и анализа.

Классификации видов отчетности
Описание Примеры использования
Аналитическая отчетность
- аналитические и OLAP-решения, инструменты построения запросов; - предназначена для небольших групп опытных пользователей, занимающихся подготовкой информации; - идеально подходит для нерегламентированных запросов и анализа. - запросы к данным и контенту и их анализ. Используется опытными пользователями для нерегламентированного анализа и представляется признанными BI-приложениями; - Data Mining и исчерпывающий предсказуемостный анализ клиентов, продуктов и корпоративной информации с целью описания и прогнозирования будущих бизнес-возможностей (таких как изменение числа клиентов) непосредственно в аналитических приложениях; - OLAP используется для моделирования бизнес-сценариев в финансовых приложениях (бюджетирование, планирование, консолидирование) и для создания многомерных представлений данных о продуктах и клиентах для анализа брендов и клиентов, соответственно.
Корпоративная отчетность
- решения для подготовки информации о результатах деятельности в формализованном виде; - предназначена для больших групп обычных пользователей – потребителей информации; - идеально подходит для отображения информации и ее распространения. - отчетность о результатах деятельности представляет оперативные данные широкому кругу клиентов, партнеров и правительственных учреждений в виде банковской отчетности, заказов продуктов, обязательной отчетности; - отчетность, встроенная в ERP, CRM и финансовые приложения, позволяет пользователям быстро оценить текущее состояние бизнеса; - встраиваемые аналитические возможности добавляют предсказуемостный и описательный анализ в «промышленные» приложения, такие как программные средства для оптимизации цепей поставок или инструменты для предотвращения отмывания денег.
Бизнес-отчетность
- методы совместной работы для манипулирования данными и аналитические решения; - предназначена для средних по размеру групп бизнес пользователей – потребителей информации; - идеально подходит для локального анализа на уровне ячеек и форматирования. - тесная интеграция с компонентами Microsoft Office для анализа с помощью Excel, Word и PowerPoint; - совместная работа с целью улучшения анализа данных -использование порталов, обмена сообщениями и приложений коллективного пользования для рабочих групп.

OLTP – системы оперативной обработки транзакций. Режим оперативной обработки транзакций OLTP (On-Line Transaction Processing) применяется в информационных системах организационного управления для отражения актуального состояния предметной области в любой момент времени, а пакетная обработка занимает весьма ограниченную нишу.

Обычно аналитические возможности OLTP-систем сильно ограничены, они используются для того, чтобы способствовать повседневной деятельности корпорации, и опираются на актуальные для текущего момента данные. Информационные системы класса OLTP предназначены для сбора, регистрации, ввода исходных данных, относящихся к той или иной предметной области, первичной обработки данных, их хранения, адекватной визуализации, поиска, выдачи справок и отчетных материалов. Первичная обработка включает проверку корректности вводимых данных и их соответствия ограничениям целостности, идентификацию описываемых данными объектов, кодирование, передачу данных по горизонтальным и вертикальным связям. Данные в информационную систему вводятся либо с документа, имеющего определенную правовую силу, либо непосредственно с места возникновения данных. В последнем случае документ, содержащий введенные данные, печатается системой и ему придается правовая сила.

В OLTP системах над целевыми БД исполняются целевые транзакции (например, занесение в таблицу записи с параметрами выписанного счета, оприходованной фактуры или любого другого факта), которые изменяют состояние БД и приводят их в соответствие текущему состоянию того фрагмента реального мира, который моделирует БД. Таким образом, основным назначением целевых БД является обработка транзакций.

Подобные системы предназначены для ввода, структурированного хранения и обработки информации в режиме реального времени. OLTP-системы позволяют сформулировать запросы типа: сколько, где и т.п. Предоставляя данные из постоянно синхронизируемых (обновляемых) БД, операционные системы не отслеживают динамику изменения процессов на больших временных промежутках, практически не производят обработку данных (за исключением определенных расчетов) и, что самое важное, не формируют выводы по имеемым данным, оставляя эту функцию лицу, принимающему решение.

Это аналитические системы распространяются как автономные программные продукты, предназначенные для аналитической обработки управленческой информации, подготовки аналитической отчетности, экспертизы и анализа решений. Наиболее развитые из этих систем имеют средства информационного обмена с внешними базами данных и могут использоваться в качестве аналитических модулей системы управления предприятием. OLTP-приложениями охватывается широкий спектр задач во многих отраслях – автоматизация бухгалтерского и складского учета и учета документов и т. п.

Основная функция подобных систем заключается в одновременном выполнении большого количества коротких транзакций от большого числа пользователей. Сами транзакции выглядят относительно просто, например, «снять сумму денег со счета А, добавить эту сумму на счет В».

Длительное время в качестве стратегии разработки подобных систем использовалось следующее:

- построение отдельных АРМ, предназначенных для обработки групп функционально связанных документов, и тиражирование готовых АРМ на места;

- построение полнофункциональных параметризуемых систем с тиражированием и настройкой по местам. Однако получаемые таким способом системы имели невысокие адаптационные возможности по преодолению динамики предметных областей. Они предъявляли высокие требования к эксплуатационному персоналу и требовали больших накладных расходов на сопровождение.

Относительно недавно начала применяться новая, третья стратегия разработки информационных систем класса OLTP. Ее суть состоит в следующем: тиражируются не готовые системы, а некоторые заготовки и технологический инструмент, позволяющие непосредственно на месте быстро построить/достроить систему с необходимой функциональностью и далее с помощью этого же инструмента ее модифицировать в соответствии с динамикой предметной области.

DATA MINING – интеллектуальный анализ данных. Data Mining (DM) – это технология поддержки процесса принятия решений, основанная на выявления скрытых закономерностей и систематических взаимосвязей между переменными внутри больших массивов информации, которые затем можно применить к новым совокупностям данных. При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания. Обнаружение новых знаний можно использовать для повышения эффективности бизнеса.

В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Многие компании годами накапливают важную бизнес-информацию, надеясь, что она поможет им в принятии решений.

Корпоративная база данных любого современного предприятия обычно содержит набор таблиц, хранящих записи о тех или иных фактах либо объектах (например, о товарах, их продажах, клиентах, счетах). Как правило, каждая запись в подобной таблице описывает какой-то конкретный объект или факт. Например, запись в таблице продаж отражает тот факт, что такой-то товар продан такому-то клиенту тогда-то таким-то менеджером, и по большому счету ничего, кроме этих сведений, не содержит.

Например, с помощью средств DM менеджер по маркетингу может предлагать клиентам индивидуальные котировки акций, обновлять новости, проводить специальные кампании по продвижению и передавать другую индивидуальную информацию, которая может их заинтересовать. При этом существенно сокращаются средства на рекламу и повышаются доходы. Кроме того, процесс полностью автоматизирован, ПО моментально обнаруживает любые изменения в поведении клиента, в отличие от специальных сервисов, представленных на сегодняшний день в Web, которые требуют от людей заполнения различных опросных листов и анкет.

Однако совокупность большого количества таких записей, накопленных за несколько лет, может стать источником дополнительной, гораздо более ценной информации, которую нельзя получить на основе одной конкретной записи, а именно – сведений о закономерностях, тенденциях или взаимозависимостях между какими-либо данными.

Например, сведения о том, как зависят продажи определенного товара от дня недели, времени суток или времени года, какие категории покупателей чаще всего приобретают тот или иной товар, какая категория клиентов чаще всего вовремя не отдает предоставленный кредит, какая часть покупателей одного конкретного товара приобретает другой конкретный товар.

Подобного рода информация обычно используется при прогнозировании, стратегическом планировании, анализе рисков, и ценность ее для предприятия очень высока, поэтому процесс ее поиска и получил название Data Mining (mining по-английски означает «добыча полезных ископаемых», а поиск закономерностей в огромном наборе фактических данных действительно сродни этому).

Синонимами DM можно считать следующее:

- Обнаружение знаний в БД (Knowledge Discovery In Databases, KDD). Это процесс поиска полезных знаний в «сырых» данных. KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов DM, а также обработки и интерпретации полученных результатов

- Интеллектуальный анализ данных (IAD). Концепция интеллектуального анализа данных определяет задачи поиска функциональных и логических закономерностей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и/или прогнозируют развитие некоторых процессов.

Термин Data Mining обозначает не столько конкретную технологию, сколько сам процесс поиска корреляций, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов: кластеризации, создания субвыборок, регрессионного и корреляционного анализа. Цель этого поиска – представить данные в виде, четко отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса (например, динамику спроса на те или иные товары или услуги либо зависимость их приобретения от каких-то характеристик потребителя).

Например, анализ потребительской корзины, применяемый, чтобы выявить предпочтения потребителей и, соответственно, лучше удовлетворить спрос и повысить доход с клиентов. Однако характер покупательского поведения присутствует в данных неявно, и для его определения необходимо использовать именно Data Mining. И теперь можно выяснить, к примеру, что клиент, собирающийся купить товар X, будет не прочь приобрести заодно и товар Y. Эта информация ляжет в основу последующих решений: может быть, стоит располагать эти товары на витрине магазина рядом или, например, продвигать один из них, чтобы повысить продажи обоих.

В отличие от оперативной аналитической обработки данных (OLAP) в DM задача формулировки гипотез и выявления необычных (unexpected) алгоритмов переложено с человека на компьютер. Если при статистическом анализе или при применении OLAP обычно формулируются вопросы типа «Каково среднее число неоплаченных счетов заказчиками данной услуги?», то применение DM, как правило, подразумевает ответы на вопросы типа «Существует ли типичная категория клиентов, не оплачивающих счета?». При этом именно ответ на второй вопрос нередко обеспечивает более нетривиальный подход к маркетинговой политике и к организации работы с клиентами.

Примеры заданий на такой поиск при использовании Data Mining приведены в таблице.

Примеры формулировок задач при использовании методов OLAP и DM
OLAP Data Mining
Каковы средние показатели травматизма для курящих и некурящих? Встречаются ли точные шаблоны в описаниях людей, подверженных повышенному травматизму?
Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телефонной компании)? Имеются ли характерные портреты клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании?
Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карточке? Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками?

Важное положение DM – нетривиальность (нестандартность и неочевидность) разыскиваемых алгоритмов (шаблонов). Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge). Иными словами, средства DM отличаются от инструментов статистической обработки данных и средств OLAP тем, что вместо проверки заранее предполагаемых пользователями взаимозависимостей они на основании имеющихся данных способны находить такие взаимозависимости самостоятельно и строить гипотезы об их характере.

Следует отметить, что применение средств DM не исключает использования статистических инструментов и OLAP-средств, поскольку результаты обработки данных с помощью последних, как правило, способствуют лучшему пониманию характера закономерностей, которые следует искать.

Применение DM оправданно при наличии достаточно большого количества данных, в идеале – содержащихся в корректно спроектированном хранилище данных (ХД) (собственно, сами ХД обычно создаются для решения задач анализа и прогнозирования, связанных с поддержкой принятия решений). Данные в хранилище представляют собой пополняемый набор, единый для всего предприятия и позволяющий восстановить картину его деятельности на любой момент времени, а структура данных хранилища проектируется таким образом, чтобы выполнение запросов к нему осуществлялось максимально эффективно. Впрочем, существуют средства DM, способные выполнять поиск закономерностей, корреляций и тенденций не только в хранилищах данных, но и в OLAP-кубах, то есть в наборах предварительно обработанных статистических данных.

Эксперты считают, что в ближайшее десятилетие DM станет одним из перспективных направлений разработки ПО. За счет выявления содержательной структуры в собранной информации и ее анализа в режиме реального времени данная технология станет ключевым методом разработки «индивидуальной Сети», приспособленной под конкретные нужды каждого пользователя.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



Сейчас читают про: