Статистические пакеты в научных исследованиях

За более чем 200 лет математиками, социологами, психологами, экономистами был сформирован мощный аппарат принятия решений в условиях неопределенности - математическая статистика и такие ее дополнения как прикладная статистика и анализ данных. Широкому практическому применению методов статистки способствовало интенсивное развитие в 60-х – 80-х годах XX века методов анализа данных и информационных технологий и систем. Начиная с середины 80-х годов, системы статистического анализа широко применялись в научно-исследовательской работе, в последующие периоды и до настоящего времени их пользователями стали коммерческие структуры, медицинские организации, государственные учреждения. Активному продвижению компьютерных методов обработки статистической информации стали многочисленные публикации и учебные пособия.

Известные на российском рынке статистические пакеты можно подразделить на профессиональные и популярные, универсальные и специальные[6]. Профессиональные пакеты (SAS,BMDP, IMSL) включают значительное число специальных методов анализа, большинство из которых доступны только математикам-профессионалам. Популярные универсальные пакеты (StatGrafphics, SPSS, SyStat, CSS, Statistica, STADIA) ориентированы на широкую аудиторию и активно применяются в практике [26, 33, 37]. Специализированные пакеты ориентированы на избранные области анализа данных (Эвриста, Мезозавр, Класс-Мастер, Сани, Сигамнд) и содержат достаточно насыщенный инструментарий статистического анализа. Большой популярностью пользуются статистические средства, включенные табличные процессоры и системы управление базами данных. Наиболее часто в таких пакетах используются средства описательной статистики, регрессионного анализа, анализа временных рядов и прогнозирования.

Сравнительные характеристики пакетов статистического анализа приведены в [33] и на странице https://is1.cemi.rssi.ru/ruswin/index.htm. Устойчивой тенденцией почти всех новых версий известных статистических пакетов стало включение не только функций, реализующих с традиционные методы статистического анализа, но и элементы Data Mining. Однако основное внимание в них все же уделяется классическим методикам – корреляционному, регрессионному, факторному анализу и другим. Недостатками статистических систем, ограничивающих их массовое применение специалистами в области экономики и менеджмента, являются высокие требования к специальной подготовке пользователей, избыточный функционал для применения в финансах и бизнесе, а также высокая стоимость этого пакетов этого класса.

Представим общую характеристику наиболее распространенных инструментальных средств статистического анализа.

Пакет STADIA разработан ведущими специалистами Московского государственного университета (главный разработчик – А.П. Кулаичев) совместно с НПО «Информатика и компьютеры». Первая версия пакета была создана в конце 70-х гг. для БЭСМ-6. С тех пор пакет постоянно модифицируется, расширяя свои функциональные и сервисные возможности. Пакет STADIA является единственным отечественным инструментальным средством статистического анализа, относящимся к классу универсальных статистических пакетов. В нем реализован исчерпывающий комплект устоявшихся и общепризнанных статистических и вычислительных методов анализа данных: описательная статистика, дисперсионный анализ, анализ временных рядов, регрессионный анализ, многомерные методы анализа (факторный анализ, кластерный анализ, дискриминантный анализ, шкалирование) и другие. Пакет снабжен мощным инструментом графического представления результатов, позволяет работать с неполными и попущенными данными, содержит средства преобразования данных. Таким образом, пакет может быть использован для множества задач анализа бизнес-информации.

Система STADIA выпускается в четырех модификациях: учебная, студенческая, базовая и профессиональная, которые отличаются объемом обрабатываемых данных (400,4000, 20 000 и 32 000 чисел совокупно в матрице данных). Учебная версия STADIA с файлами примеров свободно доступна на сайте https://statsoft.msu.ru/stadia.zip. Пакет прост в освоении, позволяет быстро найти необходимый метод обработки данных, ориентирован на мощный статистический анализ данных ограниченного объема, позволяет представить результаты анализа в табличной и графической формах и продолжить дальнейшее оформление в других средствах среды Windows (текстовых и графических редакторах).

Рассмотрим пример использования пакета STADIA. Предположим, что 10 менеджеров оценивались по методике экспертных оценок психологических характеристик личности руководителя. 15 экспертов производили оценку каждой психологической характеристики по пятибалльной системе. Сотрудников по работе с персоналом интересует вопрос, в какой взаимосвязи находятся эти характеристики руководителя между собой. Как показали расчеты корреляционной матрицы - рис. 2.12, все три оцениваемые качества оказывают существенное влияние друг на друга, иными словами, такие качества личности менеджера, как критичность, тактичность и требовательность, выступают единым комплексом и в очень большой степени необходимы для успешности его профессиональной работы.

Рис. 2.12. Исходные данные и результаты вычисления корреляционной матрицы

Как видно из представленных примеров система достаточно проста в освоении, охватывает достаточное количество методов статистического анализа, однако работает с ограниченным числом данных.

Система STATISTICA представляет собой мощную интегрированную среду анализа и управления данными и содержит в себе полный набор классических методов анализа данных в диапазоне от описательной статистики до решения задач прогнозирования с помощью нейросетей.

Функции системы STATISTICA реализованы в трех модулях:

1. Базовый пакет STATISTICA Base - предоставляет обширный выбор основных статистик в едином пакете в сочетании с мощностью, производительностью и простотой использования технологии STATISTICA.

2. Линейные и Нелинейные Модели STATISTICA Advanced Linear/Non-Linear Models - большой набор самых современных инструментов для моделирования и прогнозирования, включающий возможность автоматического выбора модели и расширенные интерактивные средства визуализации.

3. Многомерные разведочные технологии анализа STATISTICA Multivariate Exploratory Techniques - широкий выбор разведочных технологий анализа различных типов данных в сочетании с богатыми интерактивными средствами визуализации.

STATISTICA включает все методы статистического анализа: исчерпывающий набор описательных статистик, многообразные таблицы классификации, таблицы сопряженности, таблицы флагов и заголовков, многомерные отклики и дихотомии, разносторонний сервис табулирования данных, просмотр таблиц по слоям, корреляции, t-критерии для зависимых выборок, проверка различий между дисперсиями, корреляциями, процентами, вероятностный калькулятор и многие другие возможности.

В последнее время наблюдается повышенный интерес к нейронным сетям, которые успешно применяются в самых различных областях - бизнесе, медицине, технике, геологии, физике. Нейронные сети вошли в практику везде, где нужно решать задачи прогнозирования, классификации или управления. Причинами популярности нейронных сетей являются их уникальные возможности. Нейронные сети - исключительно мощный метод моделирования, позволяющий воспроизводить чрезвычайно сложные зависимости. В частности, нейронные сети нелинейны по своей природе. Долгое время линейное моделирование было основным методом моделирования в большинстве областей, поскольку для него хорошо разработаны процедуры оптимизации. Однако в ряде задач линейные модели работают плохо. Кроме того, нейронные сети успешно применяются в тех случаях, когда линейные модели невозможно создать из-за большого числа переменных

Нейронные сети учатся на примерах. Пользователь нейронной сети подбирает представительные данные, а затем запускает алгоритм обучения, который автоматически воспринимает структуру данных. При этом от пользователя, конечно, требуется какой-то набор эвристических знаний о том, как следует отбирать и подготавливать данные, выбирать нужную архитектуру сети и интерпретировать результаты, однако уровень знаний, необходимый для успешного применения нейронных сетей, гораздо скромнее, чем, например, при использовании традиционных методов статистики.

Нейронные сети привлекательны с интуитивной точки зрения, поскольку они основаны на примитивной биологической модели нервных систем. Между тем уже "простые" нейронные сети, которые строит система ST Neural Networks, являются мощным оружием в арсенале специалиста по прикладной статистике.

Ключевым понятием при работе с нейронными сетями является понятие нейронов. Нейрон имеет несколько каналов ввода информации – дендриты, и один канал вывода информации – аксон. Аксоны нейрона соединяются с дендритами других нейронов с помощью синапсов. При возбуждении нейрон посылает сигнал по своему аксону. Через синапсы сигнал передается другим нейронам, которые, в свою очередь, могут переходить в состояние возбуждения или находится в состоянии торможения. Нейрон возбуждается, когда суммарный уровень сигналов, поступивших на него, превышает определенный уровень (порог возбуждения или активации). Соединенные друг с другом нейроны образуют сеть. Кроме входных и выходных нейронов в сети могут присутствовать промежуточные (скрытые) слои нейронов. Простейшие сети имеют структуру прямой передачи сигнала: сигналы проходят от входов через промежуточные элементы и поступают на выходные элементы. Последовательность слоев и их соединений называют архитектурой сети. Типичный пример сети с прямой передачей сигнала показан на рис.2.13..Именно такой тип сетей реализован в пакете ST Neural Networks.

Рис. 2.13 Пример трехслойной сети

При работе в сети каждый элемент сети строит взвешенную сумму своих входов с поправкой в виде слагаемого и затем пропускает эту величину активации через передаточную функцию, и таким образом получается выходное значение этого элемента. Такую сеть легко можно интерпретировать как модель вход-выход, в которой веса и пороговые значения (смещения) являются свободными параметрами модели. Такая сеть может моделировать функцию практически любой степени сложности, причем число слоев и число элементов в каждом слое определяют сложность функции. Определение числа промежуточных слоев и числа элементов в них является важным вопросом при конструировании многослойной сети. Количество входных и выходных элементов определяется условиями задачи.

Получения достоверных результатов достигается путем обучения сети. Общий принцип состоит в получении результата на тестовой (обучающей) выборке, когда результат прогноза или классификации известен аналитику.

Модуль ST Neural Networks предложены различные алгоритмы обучения. Самый известный вариант алгоритма обучения нейронной сети - так называемый алгоритм обратного распространения (back propagation). Существуют современные алгоритмы второго порядка, такие как метод сопряженных градиентов и метод Левенберга-Маркара, которые на многих задачах работают существенно быстрее (иногда на порядок). Алгоритм обратного распространения наиболее прост для понимания, а в некоторых случаях он имеет определенные преимущества.

Класс задач, которые можно решить с помощью нейронной сети, достаточно широк:

- Прогнозирование на фондовом рынке. Зная цены акций за последнюю неделю и сегодняшнее значение индекса FTSE, спрогнозировать завтрашнюю цену акций.

- Предоставление кредита. Требуется определить, высок ли риск предоставления кредита частному лицу, обратившемуся с такой просьбой. В результате разговора с ним известен его доход, предыдущая кредитная история и т.д.

- Управление. Нужно определить, что должен делать робот (повернуться направо или налево, двигаться вперед и т.д.), чтобы достичь цели; известно изображение, которое передает установленная на роботе видеокамера.

Рассмотрим решение задачи прогнозирование с использование модуля ST Neural Networks на примере файла Series_g.sta, содержащего данные о месячных перевозках пассажиров.

В данном примере единственная переменная будет служить входной/выходной переменной. Для этого необходимо задать тип переменной, выделив переменную в открытом файле и выбрав из появившегося контекстного меню пункт Input/Output – рис. 2.14.

Рис. 2.14. Задание типа переменной

На следующем шаге из пункта меню File необходимо выбрать команду Net. На экране появится диалоговое окно Create Network (рис.2.15), где в поле Type следует выбрать тип сети Multilayer Perceptron (Многослойный персептрон), число слоев равным 3 (No Layers), Временное окно (Steps) равным 12 (данные представляют собой ежемесячные перевозки с явно выраженной сезонной составляющей 12 месяцев), параметр Горизонт (Lookаhead) - равным 1. После выбора установок необходимо нажать кнопку Совет (Advise) и Создать (Create).

Рис. 2.15. Задание параметров персептрона

Выполнение этих операций позволяет создать структуру сети. Этот и последующие операции прогноза с помощью обученной сети представлены на рис.2.16.

Рис. 2.16. Последовательность операций при выполнении прогноза с помощью обученной сети

После того, как структура сети определена, необходимо произвести ее обучение. Выберем в файле данных 66 обучающих Training и 66 контрольных Verification наблюдений.

Далее обычно рекомендуется перемешать порядок наблюдений, поскольку этот способ уменьшает вероятность того, что алгоритм остановится на локальном минимуме (команда Shuffle Cases).

Для обучения сети используем метод сопряженных градиентов. Проекция ряда строится следующим образом:

- Сеть обрабатывает начальный набор значений (первые 12 наблюдений) и выдает прогноз.

- Первое наблюдение из исходного набора отбрасывается, вместо него ставится прогноз, полученный на первом шаге.

- По новому набору входных значений строится следующий прогноз и т.д.

- Процесс проектирования можно продолжить неограниченно. Для построения проекции в модуле ST Neural Networks следует открыть окно Time Series Projection (Проекция временного ряда) и нажать кнопку Run (Запуск).

Для того, чтобы оценить качество работы сети необходимо открыть окно Regression Statistics (Статистика регрессии) и нажать кнопку Run.

Для построения прогноза на 1 шаг с помощью обученной сети необходимо выбрать команду Run – Single, и в диалоговом окне ввести номер наблюдения, для которого следует построить прогноз и нажать кнопку Run. В строке Output появится прогноз на 1 шаг, полученный с помощью обученной сети.

В данном разделе был представлен только один пример работы с системой STATISTICA. Однако он наглядно демонстрирует мощные возможности этого инструментального средства, удобство работы пользователей, возможность применения в решении задач анализа как профессиональными аналитиками, так и начинающими пользователями.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: