Пакеты статистического анализа данных

Пакеты статистического анализа данных.

Рассмотрим и средства статистического анализа, позволяющие построить формальные математические модели процессов (обычно без анализа механизмов функционирования систем) и, при необходимости, осуществить прогноз их поведения при различных сочетаниях влияющих параметров. Это касается также прогнозов на основании временных рядов.

Все программы статистической обработки данных можно разделить на профессиональные, полупрофессиональные (популярные) и специализированные. Статистические программы относятся к наукоемкому программному обеспечению, цена их часто недоступна индивидуальному пользователю. Профессиональные пакеты имеют большое количество методов анализа, популярные пакеты - количество функций, достаточное для универсального применения. Специализированные же пакеты ориентированы на какую-либо узкую область анализа данных.

MS Excel является самым часто упоминаемым и используемым приложением из пакета офисных программ компании Microsoft MS Office. MS Excel широко распространен, имеет русскоязычную версию, тесно интегрирован с MS Word и PowerPoint. При этом, MS Excel - это электронная таблица с достаточно мощными математическими возможностями, где некоторые статистические функции являются просто дополнительными встроенными формулами. Расчеты сделанные при ее помощи не признаются авторитетными, и невозможно построить качественные научные графики. Безусловно, MS Excel хорошо подходит для накопления данных, промежуточного преобразования, предварительных статистических прикидок, для построения некоторых видов диаграмм. Однако окончательный статистический анализ необходимо делать в программах, которые специально созданы для этих целей. Существует макрос-дополнение XLSTAT-Pro https://www.xlstat.com для MS Excel который, включает в себя более 50 статистических функций, включая анализ выживаемости, которых в основных случаях достаточно для обычного применения.

Ранее одним из наиболее популярных пакетов был Statgraphics. В нем удобно сочетаются достаточно мощные средства статистического анализа и визуализации результатов. Собственно этот пакет и сейчас широко используется, причем не только в учебном процессе, но и в научных исследованиях.

В настоящее время из статистических пакетов в России вероятно шире всего используются STATISTICA, STADIA и SPSS. Их популярности способствуют: большое количество реализованных методов; хорошая русификация; наличие учебной и справочной литературы по работе с ними.

Такие пакеты являются универсальными и предназначены для решения широкого круга задач. Универсальные пакеты содержат такие разделы математической статистики, как описательная статистика, парные критерии, анализ факторных эффектов, корреляционный анализ, регрессионный анализ, анализ времен рядов, многомерные методы, методы контроля качества и др.

Парные критерии оценивают различия между двумя совокупностями данных. Типичная задача в этом разделе — определение влияния нововведения, сделанного на предприятии, на результаты работы.
Еще одна важная задача, которую позволяют решать универсальные пакеты, — это прогнозирование, например, курса валют. Все пакеты содержат развитые средства регрессионного анализа.
Многомерные методы — дискриминантный, кластерный, факторный анализы и шкалирование — помогают понять, нет ли какой-либо закономерности или группировки в и множестве объектов. Многомерные методы позволяют по экономическим показателям образовать группы сходных предприятий.

Далее рассмотрим их более подоробно.

Пакет STATISTICA. Производителем программы является фирма StatSoft Inc. (США) https://www.statsoft.com которая выпускает статистические приложения, начиная с 1985 года. Пакет состоит из следующих основных частей:
1) электронные таблицы для ввода исходных данных, а также специальные таблицы для вывода результатов анализа;
2) графическая система для визуализации исходных данных и результатов статистического анализа;

3) набор специализированных статистических модулей;

4) встроенные языки программирования SCL и STATISTICA BASIC, которые позволяют пользователю расширить стандартные возможности системы.

STATISTICA включает большое количество методов статистического анализа (более 250 встроенных функций) объединенных следующими специализированными статистическими модулями: Основные статистики и таблицы, Непараметрическая статистика, Дисперсионный анализ, Множественная регрессия, Нелинейное оценивание, Анализ временных рядов и прогнозирование, Кластерный анализ, Факторный анализ, Дискриминантный функциональный анализ, Анализ длительностей жизни, Каноническая корреляция, Многомерное шкалирование, Моделирование структурными уравнениями и др. Несложный в освоении этот статистический пакет может быть рекомендован для биомедицинских исследований любой сложности.

В настоящее время выпущена версия 7. Российское представительство компании (https://www.statsoft.ru/) предлагает полностью русифицированную 6-ю версию программы. Сайт компании содержит много информации по статистической обработке медицинских данных, учебник по статистике на русском языке.

В пакете STATISTICA имеется большое количество специализированных статистических графиков: гистограмм, графиков для анализа пропущенных данных и определения выбросов, «ящиков с усами» с разнообразными опциями по выбору средней точки и т. д.

Графики позволяют увидеть положение моды, медианы, среднего значения по отношению к максимальному и минимальному значениям.
Графики можно уменьшать, увеличивать, накладывать друг на друга, вращать, определять собственную палитру цветов, добавлять в график текст, рисунки, стрелки. Графики могут автоматически изменяться при изменении связанного с ним файла данных.

Пакет STADIA обладает развитой системой контекстной экранной помощи. Программа отечественной разработки с 16-и летней историей. Включает в себя все необходимые статистические функции. Она прекрасно справляется со своей задачей - статистическим анализом. Но. Программа внешне фактически не изменяется с 1996 года. Графики и диаграммы, построенные при помощи STADIA, выглядят в современных презентациях архаично. Цветовая гамма программы (красный шрифт на зеленом) очень утомляет в работе. К положительным качествам программы можно отнести русскоязычный интерфейс и наличие книг описывающих работу.
Специализированные пакеты посвящены решению узкого круга задач.

SPSS (Statistical Package for Social Science). Самый часто используемый пакет статистической обработки данных с более чем 30-и летней историей https://www.spss.com Отличается гибкостью, мощностью применим для всех видов статистических расчетов применяемых в биомедицине. Недавно вышла 13-я англоязычная версия. Существует русскоязычное представительство компании https://www.spss.ru которое предлагает полностью русифицированную версию SPSS 12.0.2 для Windows. Появился учебник на русском языке, позволяющий шаг за шагом освоить возможности SPSS, репетитор по статистике на русском языке, помогающий в выборе нужной статистической или графической процедуры для конкретных данных и задач, а также справка по SPSS Base и SPSS Tables.

Пакет STATGRAPHICS Plus for Windows включает более 250 процедур, применяющихся в бизнесе, экономике, медицине, биологии, социологии, психологии, на производстве и в других предметных областях, генерирует понятные, настраиваемые отчеты. Последняя доступная версия - 5.1. Ее можно получить на сайте https://www.statgraphics.com. Есть возможность скачать демо-версию..
Пакет имеет модульную структуру. Модуль «Контроль качества» предназначен для оценки эффективности производственного процесса. Модуль «Планирование эксперимента» помогает подобрать наилучший план измерений, за счет которого сокращается объем экспериментальных исследований и время их проведения. Модуль «Анализ временных рядов» позволяет выявить сезонные эффекты, циклические изменения, тренды (тенденции), ошибки и выбросы. Модуль «Многомерные методы» предназначен для изучения и раскрытия взаимоотношений множества факторов. С его помощью можно сортировать и группировать данные.
В пакете «Мезозавр» реализована оригинальная система экспертной оценки сложных моделей временных рядов.

STATA. Профессиональный статистический программный пакет с data-management system, который может применятся для биомедицинских целей. Один из самых популярных в образовательных и научных учреждениях США наряду с SPSS. Официальный сайт https://www.stata.com Программа хорошо документирована, издается специальный журнал для пользователей системы.

Для обработки экспериментальных данных разработаны специализированные статистические пакеты:
профессиональные – SAS, BMDP, IMSL (они предназначены в основном для математиков высокой квалификации);

R – язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда научных вычислений с открытым исходным кодом. Имеет множество расширений (пакетов) для научных вычислений. Работает под Windows и Unix/Linux.

JMR. Один из мировых лидеров в анализе данных. Развивает этот статистический пакет SAS Institute https://www.jmp.com который выкупил в конце 2002 года известную статистическую программу StatView.

SYSTAT Статистическая система для персональных компьютеров https://systat.com Последняя 11 версия обладает неплохим интуитивно понятным интерфейсом. Компания Systat Software также разрабатывает популярные у отечественных исследователей SigmaStat и SigmaPlot, которые являются соответственно, программой статистической обработки и программой построения диаграмм. При совместной работе становятся единым пакетом для статистической обработки и визуализации данных.

NCSS. Программа развивается с 1981 года и рассчитана на непрофессионалов в области статистической обработки. Интерфейс системы многооконный и как следствие этого явления - немного непривычный в использовании. Все действия пользователя сопровождаются подсказками. Сейчас доступна версия 2004 г. С сайта https://www.ncss.com можно переписать полнофункциональную пробную версию работающую 30 дней.

MINITAB 14. Статистический пакет MINITAB в настоящее время выпускается в версии 14. С сайта производителя https://www.minitab.com можно взять полнофункциональный пробный вариант программы, которая работает 30 дней. Это достаточно удобный в работе программный пакет, имеющий хороший интерфейс пользователя, хорошие возможности по визуализации результатов работы. Имеет подробную справку.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: