Основные задачи анализа данных в связи с обогащением знаний

В международной литературе, задачи анализа данных систематизированы в соответствии со схемой, предложенной в книге Дуда и Харт, Анализ сцен и распознавание образов (1973) – главное, это задача узнавания/диагностики/классификации, а задачам факторного анализа или ранжирования места не нашлось вообще – их помещают в предобработку данных. В книге Миркин (1980) «Анализ качественных признаков и структур» я предложил более систематизированную классификацию (была включена в ГОСТ СССР). Эта классификация, недавно представленная в моем учебнике Mirkin (2011), исходит из того, что главная цель анализа данных – это обогащение теоретических представлений (знаний) об анализируемом объекте. Знания структурно – не что иное как совокупность понятий и связывающих их утверждений. Значит, есть два главных способа обогащения знаний – формирование новых понятий, признаков, и формирование новых связей между признаками. Анализ данных делает это на основе существующих признаков и данных о них. Формирование новых признаков происходит в форме агрегирования имеющихся признаков в виде ранжирования (ординальная шкала) или разбиения (номинальная шкала) или количественной комбинации (интервальная шкала). Формирование новых связей – в форме решающего правила, связывающего значения одних, целевых, признаков с значениями других, входных, признаков.

 

Типичные примеры таких задач можно увидеть в следующей таблице:

Колич            Анализ главных компонент

          Агрегирование

                                             Номин             Кластер-анализ

                                                  Ордин             Ранжирование

                                             Колич             Регрессионный анализ

Связь

                                                     Номин             Распознавание образов

                                                                                    Классификация с учителем

                                                          Ордин             Ординальная регрессия

 

 

Аппроксимационный подход к анализу данных: метод наименьших квадратов как эвристический принцип; декомпозиция разброса данных.

Согласно аппроксимационному подходу, любая специфическая задача анализа данных должна включать в себя два аспекта: первый, кодирование, формирование по данным Х результата А в требуемом формате (разбиение, продукция, решающее дерево и т.п.), и второй, декодирование – восстановление данных в том формате, в котором они представлены, на основе имеющегося решения, У(А). Чем точнее результат, У(А), воспроизводит данные Х, тем лучше полученное в результате анализа данных решение. Этот принцип позволяет ставить задачу так:

Исходя из данных Х, сформировать решение заданного вида А таким образом, чтобы разность Х-У(А) была как можно меньше. Если Х – сложный объект, например, матрица, минимизация разности обычно осуществляется в соответствии с принципом наименьших квадратов, как минимизация суммы квадратов разностей. По-видимому, этот принцип отражает какие-то глубинные свойства нашего мира, и что приятно, позволяет использовать теорему Пифагора: //Х//2=//У(А)// 2 + //Х-У(А)// 2, разлагающую разброс данных на объясненную и необъясненную части, что сильно помогает при поиске и интерпретации решений.

Как обосновать квадратичный критерий? При вероятностном истолковании данных, он возникает как реализация критерия максимального правдоподобия. А без оного – можно идти по методике Гука-Ньютона – показать, что из него выводятся какие-либо другие, хорошие, вещи. Например, я показал, что подобный квадратичный анализ нечисловых признаков приводит к статистическим характеристикам, типа коэффициентов ассоциации хи-квадрат, которые популярны в статистике (из других соображений) и, кроме того, связаны с совсем казалось бы не относящимися к делу вещами типа коэффициентов нормализации данных (Mirkin 2005б 2011).

 

Другие парадигмы в анализе данных (классической статистики, машинного обучения, пополнения знаний, эвристического моделирования)

Классическая статистика: имеется модель изучаемого явления/процесса; данные представляют интерес лишь постольку, поскольку они могут помочь в уточнении модели и ее параметров.

Машинное обучение: объекты появляются один за одним; задача состоит в том, чтобы построить решающее правило как можно точнее прогнозирующее интересующие нас свойства.

Пополнение знаний: имеются признаки и связи между ними; данные используются для того, чтобы сформировать новые признаки и/или связи.

Эвристическое моделирование: Давайте преобразуем данные по некоторому разумному правилу и применим к реальным проблемам.

Разработка данных и концепция «интересного».

 

                   Дата майнинг (разработка данных) как направление возникло в середине 90-х, оформив сразу большие данные и задачу об анализе транзакций – списков покупок и построенных на них ассоциативных правил. В отличие от статистиков, которые оперировали ошибками первого и второго рода, разработчики данных обратили внимание на поддержку и точность. Рассмотрим, например, множества товаров А и Б, а также множества покупателей, купивших А (безотносительно к Б) или и А, и Б, соответственно, численностей Р(А) и Р(АБ). Тогда величина р(Б/А)= Р(АБ)/Р(А) (условная доля) характеризует точность логической продукции АÞБ. Если, например, р(Б/А)=0.9,

это значит, что ошибка продукции АÞБ (на материале обучения) равна 0.1 (ошибка первого рода). Но для настоящего анализа этого мало. Ведь на множестве людей предикаты А=«когда-нибудь ел огурцы» и Б=«умер» дают р(Б/А)=1, ноль ошибок! Надо смотреть на дополнительные события в четырех-клеточной таблице

                                                                   Б не Б       Всего

                                                     А       a    b            a+b 

                                               не А       c    d            c+d

                                               Всего   a+c b+d           1

 

Такие таблицы очень уместны, когда речь идет о правилах обнаружения событий. Например, когда Б – правило для обнаружения события А (спам-фильтр и спам, детектор и террорист, и пр.) Ошибка первого рода: 1- р(Б/А)= b/(a+b), второго – c/(c+d). Но в ситуации транзакций, они вообще не смотрят «не А», тогда то и используется «поддержка», р(А)=a+b, а чтобы отсеять смерть от огурцов вводится концепция интересного. Хотя и могли бы использовать ошибки второго рода – но это совсем другое направление анализа, почему-то не получившее развития.

 

 Интересное = необычное, очень редкое или аномальное. Смерть от огурцов логически правильна, но не интересна. Много методов выявления, описания и формирования аномальных паттернов.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: