Аналитическая платформа Deductor

Deductor (BaseGroup Labs)является аналитической платформой для создания законченных прикладных решений. Реализованные в Deductor технологии позволяют на базе единой архитектуры выполнить все этапы построения аналитической системы: от создания хранилища данных до автоматического подбора моделей и визуализации полученных результатов. Эти свойства делают Deductor оптимальным базисом для создания систем поддержки принятий решений, в основе которых лежат методики интеллектуального анализа данных.

Являясь системой, реализующей сложный математический аппарат, Deductor доступен для понимания и прост в работе. В отличие от специализированных систем статистического анализа, не требует от пользователей углубленной математической подготовки, что достигается разделением рабочей области специалиста, занимающегося построением моделей, и рабочей области пользователя. Одна из важнейших особенностей Deductor состоит в тщательном подходе к вопросу статистического качества данных и подготовки массивов информации для обработки. Это оказывает существенное влияние на качество результата работы моделей.

Реализованные в Deductor технологии обеспечивают решение широкого спектра задач, возникающих в бизнесе к числу которых можно отнести:

- Анализ тенденций и закономерностей, планирование, ранжирование. Простота использования и интуитивно понятная модель данных позволяют проводить анализ по принципу «что-если», соотносить гипотезы со сведениями, хранящимися в базе данных, находить аномальные значения, оценивать последствия принятия бизнес решений.

- Прогнозирование. Построив модель на исторических примерах, ее можно использовать для прогнозирования ситуации в будущем. По мере изменения ситуации нет необходимости перестраивать все, необходимо всего лишь дообучить модель.

- Управление рисками. Реализованные в системе алгоритмы позволяют достаточно точно определиться с тем, какие характеристики объектов и как влияют на риски, благодаря чему можно прогнозировать наступление рискового события и заблаговременно принимать необходимые меры к снижению размера возможных неблагоприятных последствий. Deductor уже используется в Российских банках для создания скоринговых систем.

- Анализ данных маркетинговых и социологических исследований. Например, анализируя сведения о потребителях, можно определить, кто является вашим клиентом и почему. Как изменяются их пристрастия в зависимости от возраста, образования, социального положения, материального состояния и множества других показателей. Понимание этого будет способствовать правильному позиционированию ваших продуктов и стимулированию продаж.

- Диагностика. Механизмы анализа, имеющиеся в системе Deductor, с успехом применяются в медицинской диагностике и диагностике сложного оборудования. Например, можно построить модель на основе сведений об отказах. При ее помощи быстро локализовать проблемы и находить причины сбоев.

- Обнаружение объектов на основе нечетких критериев. Часто встречается ситуация, когда необходимо обнаружить объект, основываясь не на четких критериях, таких, как стоимость, технические характеристики продукта, а на размытых формулировках, например, найти похожие продукты с точки зрения потребителя.

Аналитическая платформа Deductor содержит многомерное хранилище данных Deductor Warehouse, аналитическое приложение Deductor Studio, средство тиражирования знаний Deductor Viewer - рис.2.17.

Рис. 2.17. Структура аналитической платформы Deductor

Deductor Warehouse – многомерное хранилище данных, в котором аккумулируется необходимая для анализа предметной области информация. Использование единого хранилища позволяет обеспечить непротиворечивость данных, их централизованное хранение и автоматически обеспечивает всю необходимую поддержку процесса анализа данных.

Deductor Studio – программа, реализующая функции импорта, обработки, визуализации и экспорта данных. Deductor Studio может функционировать и без хранилища данных, получая информацию из любых других источников, но наиболее оптимальным является их совместное использование. В Deductor Studio включен полный набор механизмов, позволяющий получить информацию из произвольного источника данных, провести весь цикл обработки (очистку, трансформацию данных, построение моделей), отобразить полученные результаты наиболее удобным образом (OLAP, диаграммы, деревья решений) и экспортировать результаты на сторону.

Deductor Viewer - это облегченная версия Deductor St u dio, предназначенная для отображения постоянных в Deductor Studio отчетов. Она не содержит средств построения, выполнения и визуализации сценариев. Это инструмент тиражирования знаний.

Работа в Deductor выполняется с использованием шести Мастеров: Мастера подключений; Мастера импорта; Мастера обработки; Мастера визуализации; Мастера экспорта и реализуется в виде цикла обработки информации, представленной на рис.2.18.

Обмен данными между аналитической платформой и сторонними приложениями является одним из важнейших этапов анализа. В системе он разделен на 2 части: получение данных для анализа из источников информации и передача обработанных данных в приемники информации.

Рис. 2.18. Цикл обработки информации в Deductor Studio

Получение данных для анализа осуществляется путем подключения к источникам данных (рис.2.19). Подключение – это базовое понятие аналитической платформы, позволяющее отделить процесс анализа данных от процесса доступа к ним. Аналитику неважно, в каком месте хранятся данные, на каком носителе, в какой физической структуре, как производится доступ к ним и синхронизация работы нескольких пользователей. Ему важно, чтобы логическое представление данных было удобно для проведения анализа.

Рис. 2.19. Подключение к источникам данных в Deductor Studio

Последовательность обработки и визуализации данных объединены в сценарии древовидной структуры. Сценарий всегда начинается с импорта данных из произвольного источника. После импорта следуют обработчики данных любой глубины и вложенности. Пример различных сценариев представлен на рис. 2.20.

Вне зависимости от природы данных форма их представления как при импорте, так и при экспорте единая – это плоская таблица. Мастера экспорта и импорта обеспечивают взаимодействие с любыми источниками и приемниками данных, используя стандартные механизмы доступа (ODBC, ADO и др.) Обработка и визуализация - это еще две операции по работе с данными. Под обработкой понимаются любые действия с данными, начиная с простых (например, сортировка данных) и заканчивая сложными (например, построение модели нейронной сети).

Рис. 2.20. Цикл обработки информации в Deductor Studio

Реализованные в Deductor механизмы обработки данных обеспечивают практически все потребности анализа бизнес-данных и связанные с ним действия над данными (очистка, слияние, объединение, фильтрация). Инструменты визуализации в Deductor позволяют интерпретировать результаты анализа графическими методами.

Наличие мощного набора механизмов обработки и визуализации позволяет двигаться по шагам, от наиболее простых способов анализа к более мощным, таким образом, первые результаты пользователь получает практически сразу, но при этом можно легко наращивать мощность решения.

Рассмотрим решение задачи корреляционного анализа средствами аналитической платформы Deductor. Для оценки зависимости потребительских расходов на душу населения от таких входных факторов как численность населения, средне-душевые денежные доходы, валовый региональный продукт и других использовались данные Федеральной службы государственной статистики (https://www.gks.ru/bgd/regl/B10_14p/IssWWW.exe/Stg/d01/01-02-1.htm), представленные на рис. 2.21. Принцип корреляционного анализа состоит в поиске таких значений, которые в наименьшей степени коррелированы (взаимосвязаны) с выходным результатом. Такие факторы могут быть исключены из результирующего набора данных практически без потери полезной информации. Критерием принятия решения об исключении является порог значимости. Если корреляция (степень взаимозависимости) между входным и выходным факторами меньше порога значимости, то соответствующий фактор отбрасывается как незначащий.

Рис. 2.21. Исходные данные корреляционного анализа

Для корреляционного анализа необходимо выполнить загрузку данных из файла, содержащего информацию, используя Мастер импорта, выполнить настройку полей (Мастер Настройка набора данных), отфильтровать строки, не содержащие информацию (Мастер обработки Фильтр) и выполнить корреляционный анализ(Мастер обработки Корреляционный анализ). После проведения корреляционного анализа становится доступным обработчик Матрица корреляции (Рис.2.22)

Рис.2.22. Сценарий и корреляционная матрица


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: