Иногда возникает задача анализа данных, которые с трудом можно представить в математической числовой форме. Это случай, когда нужно найти данные, принципы отбора которых заданы нечетко: выделить надежных партнеров, определить перспективный товар и т.п. Типичной задачей подобного рода является предсказание банкротств.
Предположим, что есть информация о деятельности нескольких десятков банков (их открытая финансовая отчетность) за некоторый период времени. По окончании этого периода известно, какие из этих банков обанкротились, у каких отозвали лицензию, а какие продолжают стабильно работать на момент окончания периода. Необходимо решить вопрос о том, в каком из банков в следующем периоде стоит размещать средства.
Для общности рассмотрения целесообразно использовать термин объект. Например, объектом может быть банк, но описываемая методика без изменений подходит для решения и других задач — например, анализа кредитоспособности клиента, поиска оптимальной стратегии поведения на рынке и т.д.
Каждый объект характеризуется набором различных параметров, которые описывают его состояние. Например, для банка параметрами будут данные из финансовых отчетов. Эти параметры часто имеют числовую форму или могут быть приведены к ней.
Таким образом, на основании анализа параметров объектов надо выделить схожие объекты, и представить результат в форме, удобной для восприятия.
Эти задачи решаются самоорганизующимися картами Кохонена. Для упрощения рассмотрения будем считать, что объекты имеют 3 признака, однако на самом деле их может быть любое количество. Эти три параметра объектов представляют собой их координаты в трехмерном пространстве. Тогда, каждый объект можно представить в виде точки в этом пространстве. В результате нормализации в интервале [0,1] все точки попадут в куб единичного размера, как показано на рисунке 19.
Данную систему необходимо преобразовать в простую для восприятия, желательно двумерную систему так, чтобы соседние в искомом пространстве объекты оказались рядом. Для этого в многомерное пространство данных погружается двумерная сетка (рис.20).
Эта сетка изменяет свою форму таким образом, чтобы по возможности точнее аппроксимировать облако данных. Каждой точке данных ставится в соответствие ближайший к ней узел сетки. Таким образом, каждая точка данных получает некоторую координату на сетке. Полученная карта обладает следующим свойством — узлы ее расположились таким образом, что объектам, похожим между собой соответствуют соседние узлы карты (рис.21).
Рис. 19. Координаты объектов в пространстве
Рис. 20. Карта Кохонена
Нанеся на карту раскраску, соответствующую различным статьям отчетов можно получить так называемый атлас, хранящий в себе информацию о состоянии рынка. При анализе, сравнивая расположение цветов на раскрасках, порожденных различными параметрами, можно получить полную информацию о финансовом портрете банков — неудачников, процветающих банков и т.д. (рис.22).
Рис. 21. Вид пространства после наложения карты
Рис. 22. Раскраска карты, порожденная -ой статьей баланса