Инструментальная среда Darwin предназначена для анализа данных методами, относящимися к технологии «data mining» (извлечение знаний). Основная задача технологии извлечения знаний состоит в выявлении в больших наборах данных скрытых закономерностей, зависимостей и взаимосвязей, полезных при принятии решений на различных уровнях управления. Такие закономерности представляются в виде моделей различного типа, позволяющих проводить классификацию ситуаций или объектов, прогнозировать их поведение, выявлять группы сходных объектов и т.п. Модели строятся автоматически на основе анализа имеющихся данных об объектах, наблюдениях и ситуациях с помощью специальных алгоритмов.
Darwin поддерживает все этапы технологии извлечения знаний, включая постановку задачи, подготовку данных, автоматическое построение моделей, анализ и тестирование результатов, использование моделей в реальных приложениях. На этапе подготовки данных обеспечивается доступ к любым реляционным базам данных, текстовым файлам, SAS -файлам. Дополнительные средства преобразования и очистки данных позволяют изменять вид представления, проводить нормализацию значений, выявлять неопределенные или отсутствующие значения.
|
|
На основе подготовленных данных специальные процедуры автоматически строят различные модели для дальнейшего прогнозирования, классификации новых ситуаций, выявления аналогий. Darwin поддерживает построение пяти различных типов моделей — нейронные сети, классификационные и регрессионные деревья решений, ближайшие k -окрестности, байесовское обучение и кластеризация.
Важная особенность системы Darwin, выделяющая ее среди других средств извлечения знаний, ее технические характеристики: работа в архитектуре «клиент-сервер»; широкое использование техники параллельных вычислений; высокая степень масштабируемости при увеличении вычислительных ресурсов. Все это позволяет выполнять процедуры автоматического анализа данных огромных объемов, достигая очень высоких временных показателей.
Darwin успешно применяется в индустрии телекоммуникаций, в торговле, банковской сфере при работе с частными лицами, страховании и здравоохранении. Именно в этих отраслях, для которых характерна очень большая клиентская база, использование методик «извлечения знаний» дает максимальный экономический эффект.