Средства интеллектуального анализа данных Oracle. Darwin Data Mining Suite

Инструментальная среда Darwin предназначена для анализа данных методами, относящимися к технологии «data mining» (извлечение знаний). Основная задача технологии извлечения знаний состоит в выявлении в больших наборах данных скрытых закономерностей, зависимостей и взаимосвязей, полезных при принятии решений на различных уровнях управления. Такие закономерности представляются в виде моделей различного типа, позволяющих проводить классификацию ситуаций или объектов, прогнозировать их поведение, выявлять группы сходных объектов и т.п. Модели строятся автоматически на основе анализа имеющихся данных об объектах, наблюдениях и ситуациях с помощью специальных алгоритмов.

Darwin поддерживает все этапы технологии извлечения знаний, включая постановку задачи, подготовку данных, автоматическое построение моделей, анализ и тестирование результатов, использование моделей в реальных приложениях. На этапе подготовки данных обеспечивается доступ к любым реляционным базам данных, текстовым файлам, SAS -файлам. Дополнительные средства преобразования и очистки данных позволяют изменять вид представления, проводить нормализацию значений, выявлять неопределенные или отсутствующие значения.

На основе подготовленных данных специальные процедуры автоматически строят различные модели для дальнейшего прогнозирования, классификации новых ситуаций, выявления аналогий. Darwin поддерживает построение пяти различных типов моделей — нейронные сети, классификационные и регрессионные деревья решений, ближайшие k -окрестности, байесовское обучение и кластеризация.

Важная особенность системы Darwin, выделяющая ее среди других средств извлечения знаний, ее технические характеристики: работа в архитектуре «клиент-сервер»; широкое использование техники параллельных вычислений; высокая степень масштабируемости при увеличении вычислительных ресурсов. Все это позволяет выполнять процедуры автоматического анализа данных огромных объемов, достигая очень высоких временных показателей.

Darwin успешно применяется в индустрии телекоммуникаций, в торговле, банковской сфере при работе с частными лицами, страховании и здравоохранении. Именно в этих отраслях, для которых характерна очень большая клиентская база, использование методик «извлечения знаний» дает максимальный экономический эффект.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: