Схема технологического цикла предсказаний рыночных временных рядов

Далее мы кратко обсудим все этапы этой технологической цепочки. Хотя общие принципы нейро-моделирования применимы к данной задаче в полном объеме, предсказание финансовых временных рядов имеет свою специфику.

Обучение нейросетей. Основная специфика предсказания временных рядов лежит в области предобработки данных. Процедура обучения отдельных нейросетей стандартна. Как всегда, имеющиеся примеры разбиваются на три выборки: обучающая, валидационная и тестовая. Первая используется для обучения, вторая - для выбора оптимальной архитектуры сети и/или для выбора момента остановки обучения. Наконец, третья, которая вообще не использовалась в обучении, служит для контроля качества прогноза обученной нейросети.

Однако, для сильно зашумленных финансовых рядов существенный выигрыш в надежности предсказаний способно дать использование комитетов сетей. Обсуждением этой методики мы и закончим данную главу.

В литературе имеются свидетельства улучшения качества предсказаний за счет использования нейросетей с обратными связями. Такие сети могут обладать локальной памятью, сохраняющей информацию о более далеком прошлом, чем то, что в явном виде присутствует во входах. Рассмотрение таких архитектур, однако, увело бы нас слишком далеко от основной темы, тем более, что существуют альтернативные способы эффективного расширения "горизонта" сети, за счет специальных способов погружения ряда, рассмотренных ниже.

Ключевым для повышения качества предсказаний является эффективное кодирование входной информации. Это особенно важно для труднопредсказуемых финансовых временных рядов. Имеются, однако, и специфичные именно для финансовых временных рядов способы предобработки данных.

Интеллектуальный анализ данных (англ. Data Mining) — выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Как правило подразделяется на задачи классификации, моделирования и прогнозирования. Процесс автоматического поиска закономерностей в больших массивах данных. Термин Data Mining веден Григорием Пятецким-Шапиро в 1989 г.

Английский термин «Data Mining» не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации) поэтому в большинстве случаев используется в оригинале. Наиболее удачным непрямым переводом считается термин Интеллектуальный анализ данных.

ИАД включает методы и модели статистического анализа и машинного обучения, дистанцируясь от них в сторону автоматического анализа данных. Инструменты ИАД позволяют проводить анализ данных предметными специалистами (аналитиками), не владеющими соответствующими математическими знаниями.

Задачи решаемые Data Mining:

1. Классификация – отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.

2. Кластеризация – разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.

3. Регрессия – установление зависимости непрерывными входным и выходным векторами.

4. Ассоциация – поиск повторяющихся паттернов. Например, поиск устойчивых связей в корзине покупателя (market basket analysis) – вместе с пивом покупают орешки.

5. Сокращение описания – для визуализации данных, лаконизма моделей, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации.

6. Последовательные шаблоны – аналогично задаче ассоциации, но с учетом временной составляющей. Например, поиск причинно-следственных связей.

7. Прогнозирование – аналогично задаче регрессии, но с учетом временной составляющей. Например, прогноз трендов финансовых показателей.

8. Анализ отклонений – выявление наиболее нехарактерных паттернов. Например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы.

В литературе можно встретить еще ряд классов задач. Базовыми задачами являются первые пять. Остальные задачи сводятся к ним тем или иным способом.

Характерной чертой последних тенденций компьютерного анализа и интерпретации данных и принятия решений является бурное развитие технологий и средств "добычи", "извлечения" знаний из данных, "интеллектуального анализа данных" (ИАД) [1-5]. Для начальной стадии развития этого направления, что естественно, характерно наличие неустоявшихся понятий данной предметной области. В настоящей работе предпринята попытка в определенной мере восполнить этот пробел.

Прежде всего, определим понятие "информация". Не выясняя сути этого понятия, определим его как "совокупность содержательных сведений, которые могут быть выработаны, собраны, переданы, сохранены, переработаны, воспроизведены, использованы и т.п.".

Следующими важными понятиями являются термины: сигнал, данные и знания. Сигнал - материальный носитель информации - физическое вещество, поле, процесс. Данные - рассматриваемый безотносительно к содержательному смыслу набор символов и представляемых ими записей. Знания - проверенные практикой результаты познания действительности, полезные сведения, которые могут многократно использоваться людьми. Акцентируем внимание на следующих аспектах приведенных определений.

Сходство сигналов и данных - они носители информации, а не сама информация. Их отличие сводится к тому, что информация, содержащаяся в сигнале, недоступна непосредственному восприятию субъектом. Данные же это, во-первых, совокупность содержащих информацию символов, во-вторых, совокупность, доступная для восприятия человеком. С точки зрения решения конкретной задачи всю информацию о некоем объекте можно условно считать состоящей из трех взаимосвязанных пересекающихся, нечетко разделимых частей: знания, протознания и информационный мусор. Знания в отличие от сигналов и данных это уже элемент информации, отличающийся логической полнотой, ограниченностью набора, и, в завершенном варианте, проверенностью практикой. Они (знания) включают в себя всю релевантную информацию, т.е. ту часть "полезной " для решения стоящей задачи информации, которая полностью устраняет (с точки зрения решаемой задачи!) неопределенность об объекте у получателя. Релевантная информация, в свою очередь, есть часть полезной (для получателя) информации - совокупности сведений, уменьшающих степень неопределенности о рассматриваемом объекте у ее получателя. В отличие от знаний полезная информация может быть логически не полной, противоречивой, не всегда достоверной и т.п. Знания же это полезная информация, представленная в виде, удобном для ее интеллектуального "переваривания". "Протознания" - это та часть информации, из которой могут быть получены новые знания. Остальная часть информации, - это информационный мусор - содержащиеся в "данных" сведения, которые не содержат полезной для пользователя информации и/или протознаний, но многократно увеличивают издержки пользователя. В этом смысле сигналы, данные и знания, как носители полезной информации и информационного мусора, будем в дальнейшем условно обозначать одним словом "данные". Следующие важные обобщающие собирательные понятия - это сбор, обработка, анализ, интерпретация и применение "данных".

Назовём "сбором "данных" действия с "данными", не приводящие к изменению семантики.

"Обработкой "данных" (сигналов, данных, знаний) будем называть действия, направленные на приведение интересующей исследователя, содержащейся в них информации к более удобному, компактному для анализа виду. Заметим, что при обработке "данных" содержащееся в них количество информации не может быть увеличено. Здесь происходит лишь преобразование информации к виду, более удобному для дальнейших операций.

Под "анализом "данных" будем понимать действия с ними, направленные на извлечение из них содержащейся информации об исследуемом объекте и на получение по имеющимся "данным" новых "данных", включающих в себя извлечённую из первых информацию об объекте.

Разновидностью анализа "данных" является "интеллектуальный анализ"данных". Под ним будем понимать анализ, связанный, во-первых, именно с неформальным извлечениемзнаний об исследуемом объекте, породившем "данные", непосредственно из этих "данных" (АИД-1), во-вторых, с получениемновых знаний об объекте на базе извлечённых знаний, виртуальных^*) "данных" об объекте и естественного и/или искусственного интеллекта (ИАД-2), в-третьих, с поиском, выбором, синтезом методов и средств обработки и анализа "данных" с учётом поставленных целей исследования объекта (ИАД-3).

Интеллектуальный анализ "данных" связан с "добавлением информации" об объекте и/или методах и средствах анализа, с привнесением её "интеллектом". Под "интерпретацией результатов обработки и анализа "данных" будем понимать истолкование, разъяснение смысла, значения, их "перевод" на язык, в термины, образы,..., доступные, понятные пользователю.

Под "применением результатов обработки и анализа "данных" понимаются действия, связанные с использованием их (результатов) для решения теоретических и практических задач, с реализацией технологии, с достижением поставленной пользователем конечной цели. Заметим, что любая формализация, структурирование, обработка "данных" привносит в них элементы знаний.

Следующие важные понятия это англоязычные термины "Data Mining", "Data-Based Knowledge", "Data Cleaning", "Data Warehouse", "Metadata".

Обычно под технологией "Data Mining" (DM)понимают поиск характеризующих объект скрытых зависимостей и взаимосвязей, проявляющихся через данные о нем (см., например, [4,5,10]). "Data-Based Knowledge" (DBK) - знания, основанные на "данных", т.е. знания, которые "извлекаются" (выводятся) с помощью интеллектуальных инструментальных средств анализа (Business Intelligence Tools - BIT) из хранилища "данных". "Data Cleaning" (DС) очистка "данных" - есть устранение из данных или корректировка той их части, которая содержит легко определяемый "информационный мусор": ошибки, противоречия, сбои, явные выбросы и т.п. Эта операция обычно используется перед загрузкой "данных" в "хранилище" (в DW). "Data Warehouse" (DW) - хранилище данных - это база, в которой собираются "данные" для последующего их анализа под конкретную решаемую задачу. "Metadata" - "данные", описывающие "данные" в DW.

Наконец, еще одним важным понятием является термин "управление знаниями". Под ним с подачи специалистов Anderson Consalting обычно понимают систематическое приобретение, синтез, обмен и использование (надо полагать, полезных?!) идей и опыта для достижения успеха в бизнесе или в управлении компанией. Иными словами, это процесс использования того, что известно людям, на новом уровне, с целью повышения потенциала компании через использование лучших решений, интеллектуального капитала или организационного обучения, а также через "капитализацию интеллекта, знаний".

Задачи, методы и средства ИАД Ясно, что, в зависимости от приложений, наиболее значимым, первостепенным для каждого приложения является свой перечень задач и наиболее эффективные методы его решения.

Из наиболее часто решаемых методами ИАД задач в приложении к бизнесу являются: анализ значимых факторов, сокращение или увеличение их числа, выявление зависимостей, ассоциаций, исключений и закономерностей, в том числе для уменьшения размерности факторного пространства либо для виртуального (сбора, обработки) анализа "данных"; классификация; моделирование и прогноз; ранжирование; сегментация; профилирование наилучших достижений и т.п. К наиболее часто используемым методам, технологиям решения этих задач относятся методы деревьев решений, нейронных сетей, математической статистики, экспертного анализа и нечеткой логики, визуализации, генетических алгоритмов, эволюционного программирования, прецедентов, вариативного (вариантного) моделирования, а также интегрированные методы и технологии.

Из современного программного обеспечения, используемого как средства ИАД, отметим следующие.

ПО хранилищ данных: Oracle (фирма Arbor), Platinum Technology (Business Objests), Praxis (Carleton), Prism (Cognos), Pyramid (Hewlett-Packard), Red Brick (IBM), SAS Institute (Information Bulders), Sequent (Informix), Software AG (Intellidex), Sybase (Microsoft), Tandem (MSP).

ПО для реализации технологий "Data Mining": Poly Analyst, Scenario, 4 Thought, MineSet.

Инструментарий (платформы и приложения) управления знаниями предлагается компаниями Glyphica (система Portalware), Autonomy (Portal-in-a-Box, Content Server и др.), Plumtree Software (Plumtree Server), Hyperknowledge (Hyperknowledge Builder), Intraspect Software (Intraspect Knowledge Server 2.0), Documentum (Documentum Enterprise Document Management System - EDMS), Open Text (Livelink) и др.

Управление знаниями является одной из основных концепций управления, влияющих на современные тенденции развития бизнеса, наряду с тотальным управлением качеством (TQM), совершенствованием и реинжинирингом бизнес процессов, электронной коммерцией, методологиями Balanced Scorecard, EVA, ABC. Именно управление знаниями, по общему мнению, в ближайшее время станет пропуском в лидеры, технологией mainstream, т.е. ключевой технологией, определяющий парадигму менеджмента в целом.

Однако, несмотря на то, что тема управления знаниями уже активно эксплуатируется наиболее продвинутыми консалтинговыми компаниями, а некоторые российские предприятия уже заявляют о том, что они используют у себя этот подход, - ясность в ответе на вопросы "что же скрывается под этим понятием, в чем состоит польза от его применения и какие шаги надо предпринять для внедрения в компании "управление знаниями", пока отсутствует.

Вопрос: Руководителем проекта по внедрению управления знаниями в нашей стране, как правило, является либо начальник ИТ-службы, либо HR-директора компаний. Чем объясняется такая неоднозначность выбора и, как следствие, неоднозначность понимания задач управления знаниями?

Такой выбор руководителей проекта и понимание задач управления знаниями основывается на двух наиболее распространенных подходах к реализации управления знаниями.

Первый подход можно назвать персонифицирующим или интуитивистским. Он базируется на том, что знание содержится в людях и главное, чтобы носители знания (эксперты) его хранили и им делились. В результате, на первый план выходит мотивация персонала и формирование необходимой культуры компании. Основной задачей управления знаниями при данном подходе является выявление, сохранение и эффективное использование знаний сотрудников.

Второй подход можно назвать информационным или технологическим. Он исходит из того, что современные предприятия, особенно крупные, накопили гигантские объемы данных о клиентах, поставщиках, операциях и многом другом, хранящиеся в десятках операционных и транзакционных систем в разных функциональных подразделениях. В этих базах данных скрыты настоящие сокровища мудрости. Но эта информация, в основном, представляет собой необработанные данные, не пригодные для целей анализа. Для поиска знаний в массивах данных и их обработки необходимы информационные технологии, которые выявляют скрытые зависимости и правила в данных. Знания рассматриваются как точная информация по данной проблеме. Система, которая способна предоставить точный ответ на запрос, - это и есть система управления знаниями.

Вопрос: Какие действия в рамках проекта по управлению знаниями необходимо предпринимать в соответствии с тем или иным подходом?

При первом подходе проект, как правило, начинается с определения ключевых сотрудников, заинтересованных в поддержании проекта и объединение их в сообщество, которое в дальнейшем будет продвигать идеи управления знаниями в компании. После чего производится оценка соответствия ресурсов знаний реальным потребностям сотрудников. На основе такой оценки разрабатываются стратегия и политика управления знаниями компании. Эти документы определяют дальнейший сценарий управления знаниями и основные механизмы действия программы: какие именно знания особенно важны для компании, что с ними следует делать, как оценивается эффективность обмена знаниями, каковы новые должностные обязанности сотрудников в отношении управления знаниями и т. д. В заключении, вводится в действие политика управления знаниями и выполняются действия, направленные на реализацию стратегии управления знаниями.

При "технологическом" подходе сценарий постановки КМ сводится к внедрению в практику компании адекватных технических средств бизнес-аналитики и бизнес-коммуникаций. Такой подход как бы игнорирует отличия в задачах CKO и CIO. ИТ-директор (CIO) управляет компьютерами, базами данных и сетью (технология), директор по управлению знаниями (СКО) отвечает за разработку процессов, способствующих накоплению, генерации и передаче знаний (информатика!), применению их сотрудниками компании.

Вопрос: Сценарий реализации управления знаниями при "технологическом" подходе кажется несколько однобоким, однако сценарий "персонифицирующего" подхода подкупает своей логичностью. Возникает желание взять его за образец при реализации проектов по управлению знаниями, однако некоторых менеджеров в этом подходе к управлению знаниями все же что-то сдерживает?

Сдерживает, по-моему, то, что этот подход, как бы уходит от содержательной стороны знаний, т.е. от ответа на вопрос "какие именно знания особенно важны для компании?", а это является краеугольным при реализации любого сценария. Можно сказать, что "важность" знаний определяется их ролью в выполнении ключевых бизнес-процессов, а оценка эффективности управления знаниями производится на основе анализа связи этих процессов с реализацией общей стратегии бизнеса. Однако в настоящее время в России трудно найти такое предприятие, где эти начальные условия выполнены: т.е. и процессы описаны, и со стратегией связаны, осталось только прийти и внедрить управление знаниями.

Если же эти условия не выполнены, то "практики по управлению знаниями" советуют "начать с очевидного и легко доступного", т.е. "важные знания" определяются экспертным путем и начинается работа с ними по принципу "вреда нет, а польза возможна". К сожалению, результаты управления знаниями в таком случае звучат не слишком убедительно. Как правило, это незначительное снижение затрат, основанное на более эффективном использовании рабочего времени при поиске нужной информации. Примером является снижение интернет-трафика за счет разработки директории полезных ссылок и т.п. Такие улучшения напоминают "теорию малых дел", бытовавшую среди российской интеллигенции 19-го века. И не вполне понятно, почему вокруг этого понятия "так много шума".

Вопрос: Если снижение затрат и экономия ресурсов на ваш взгляд не являются основной целью управления знаниями, что же следует ожидать от данного направления?

Международные исследования (в том числе отчет компании KPMG) показывают, что основная роль управления знаниями видится не в снижении затрат, а в существенном усилении конкурентного преимущества для внедривших его компаний. Только такая трактовка может объяснить общее мнение о том, что управление знаниями в ближайшее время станет ключевой технологией, определяющей парадигму менеджмента в целом. Истинную значимость управления знаниями в современном бизнесе можно понять, рассмотрев эволюцию базовых концепций менеджмента, смена которых иллюстрирует последовательный поиск "корней успеха" на все большей глубине. Начальной базовой концепцией можно считать финансово-ориентированный менеджмент, который существовал длительное время в эпоху "рынка производителя". При переходе к рынку покупателя его заменил маркетинг-менеджмент, в котором определяющей идеологией управления стал маркетинг. На смену маркетинг-менеджменту пришел поглотивший его менеджмент качества, который предполагает выстраивание бизнеса на основе идеологии качества, в т.ч. качества организации и совершенствования процессов деятельности, направленной на удовлетворение правильно идентифицированных потребностей клиентов. Переход к экономике знаний произошел тогда, когда начался поиск надежной основы как для более точной и быстрой идентификации потребностей клиентов, так и для оптимальной организации бизнес-процессов.

Вопрос: В описанной вами смене парадигм менеджмента можно заметить сходство с методологией распространенного инструмента стратегического управления - Сбалансированной системой показателей. Какова же роль управления знаниями в контексте упомянутой методологии?

Относясь к финансовым показателям как к итогам деятельности, сбалансированная система показателей ориентирует компанию на все более упреждающий контроль бизнеса: кроме финансовых вводятся показатели, характеризующие маркетинг (доли рынка, удовлетворенность клиентов), уровень организации и качество процессов, а также показатели, отражающие потенциал роста и развития бизнеса - именно они и отражают уровень управления знаниями в компании. При этом основное направление причинно-следственной связи между показателями - главного атрибута сбалансированной системы показателей - соответствует рассмотренной выше последовательности смены базовых концепций менеджмента. Финансовые показатели являются следствием успешной деятельности компании на рынке и удовлетворенности клиентов компании, рыночный успех является следствием качества организации бизнес-процессов, которое в свою очередь есть следствие развития корпоративных знаний и мотивации персонала на всех уровнях компании. Таким образом, цели, показатели и задачи в области знаний лежат на самом глубинном уровне, создавая наиболее прочный фундамент успеха компании. А упреждающий контроль бизнеса, задаваемый сбалансированной системой показателей, предписывает постоянно планировать и отслеживать тенденции развития компании: отставание в развитии знаний в 2003 году может привести к ухудшению качества процессов в 2004 и рыночных позиций в 2005, что приведет, в свою очередь, к плохим финансовым результатам в 2006-м!

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

1 2

Язык как общественное явление

Социальная поддержка и социальное обслуживание население

Желе, муссы, самбуки. Технология приготовления. Правила подачи. Ассортимент

Практические рекомендации по стилистике документов, образующих деловую переписку

Методы и средства гигиенического обучения и воспитания населения

Анализ дебиторской задолженности

Самый сильный аргумент, почему эволюция человека не могла быть