Корреляционный и регрессионный анализ

Для принятия обоснованного управленческого решения, часто важны не столько данные об одной маркетинговой переменной, сколько информация о ее взаимосвязи с другими переменными.

Корреляционный анализ: позволяет сделать выводы о силе линейной связи между переменными.

Регрессионный анализ: помимо этого, позволяет также получить модель, отражающую наблюдаемую связь между зависимой и независимыми переменными (модель используется для прогнозирования значений зависимой переменной на основе известных значений независимых переменных).

Необходимо отметить, что методы регрессионного и параметрического корреляционного анализа корректны только если переменные измерены как минимум в интервальной шкале. Они работают и с порядковыми переменными, но тогда результаты анализа являются неточными, и, следовательно, доверять им можно в меньшей степени.

1. Парная корреляционная связь

Парная корреляция: при определении связи между двумя переменными не учитывают их связи с другими переменными, включенными в анализ.

Диаграмма рассеивания: визуальное отражение связи между двумя переменными (принято, что независимая переменная должна соответствовать горизонтальной оси диаграммы, а зависимая переменная - вертикальной).

Каждому наблюдению на диаграмме соответствует одна точка. Если в расположении точек не прослеживается никаких закономерностей, то две переменные не связаны. Однако, как правило, некоторая связь между переменными наблюдается и чаще всего эта связь близка по форме к линейной. В этом случае расположение точек на диаграмме рассеивания напоминает эллипс, вытянутый из левого нижнего угла в правый верхний в случае положительной корреляции переменных и из левого верхнего угла в правый нижний - в случае отрицательной корреляции. Чем более вытянут эллипс, чем более он отличается от окружности, тем более сильной является линейная корреляционная связь. Расположение точек может принимать также и другие упорядоченные формы, отличающиеся от эллипса, например, форму треугольника. Это означает, что связь между переменными является нелинейной, что затрудняет использование стандартных статистических методов.

Коэффициент корреляции: отражает силу линейной связи между двумя переменными.

Этот способ определения связи не является столь наглядным как диаграммы рассеивания, но зато позволяет точно оценить силу линейной связи. Коэффициент корреляции является нормированной величиной, он может меняться от -1 до 1. Значения, которые по модулю близки к 1, соответствуют сильной линейной связи, а значения, близкие к нулю, соответствуют отсутствию значимой линейной связи. Если коэффициент корреляции равен по модулю 1, то это означает, что связь между переменными является строго линейной, что практически невозможно для маркетинговых показателей.

Сила связи может определяться:

- как по самому коэффициенту корреляции;

- так и по соответствующему ему уровню значимости (если эмпирический уровень значимости меньше критических значений, то корреляция является статистически достоверной).

Параметрический коэффициент корреляции Пирсона -для переменных, измеренных в интервальной шкале или относительной шкале.

Непараметрический коэффициент корреляции Спирмена - для переменных, измеренных в порядковой шкале.

Существуют также коэффициенты корреляции для переменных, измеренных в шкале наименований, но их мы в данном разделе не рассматриваем.

Необходимо помнить о том, что различия между интервальной и порядковой шкалой зачастую являются нечеткими, к тому же коэффициент Спирмена, как правило, незначительно отличается от коэффициента Пирсона, рассчитанного для тех же данных.

Корреляционная матрица: состоит из коэффициентов корреляции для всех возможных пар переменных (так как в анализ часто включено одновременно более двух переменных).

Количество столбцов в корреляционной матрице равно количеству строк, причем каждый столбец, равно как и каждая строка, соответствует одной из переменных. Каждая ячейка корреляционной матрицы содержит коэффициент корреляции между двумя переменными. На главной диагонали матрицы находятся единицы, так как коэффициент корреляции переменной самой с собой равен 1.

2. Частная корреляционная связь

Частная корреляция: позволяет получить информацию о связи двух переменных с учетом влияния других переменных.

Частные коэффициенты корреляции: отражают связь между двумя переменными при контроле над третьей переменной. (т.е. при сохранении ее постоянной)

Этот метод имеет отношение к гипотезам о причинах изменения зависимой переменной. Изменение зависимой переменной в маркетинговых ситуациях всегда имеет не одну, а несколько причин.

Часто встречается ситуация - сильная связь между независимыми переменными: частная корреляция между двумя переменными значительно меньше парной (изменение зависимой переменной, которое мы в результате парной корреляции считали связанным только лишь с одной независимой переменной, в действительности связано одновременно с несколькими независимыми переменными).

3. Регрессионный анализ

Одно из главных назначений -построение модели, позволяющей прогнозировать значения зависимой переменной.

Рассмотрим наиболее простую из них -• линейную модель, описываемую уравнением

Y=a+b_1*x₁+b_2*x₂+…+b_k*x_k+e

где Y - зависимая переменная;

x₁,x₂,…x_k - независимые переменные;

b₁,b₂,…b_k-угловые коэффициенты;

k - количество независимых переменных;

а - свободный член уравнения (значение, которое принимает зависимая переменная при равенстве нулю всех независимых переменных);

е - ошибка прогноза.

Обучающая выборка - исходные данные для регрессионного анализа (значения независимых переменных и соответствующие им значения зависимой переменной для каждого наблюдения).

Следует различать теоретические и наблюдаемые значения зависимой переменной: - наблюдаемые значения обучающей выборки используются для построения модели, т.е. для подбора коэффициентов b₁,b₂,…b_kи а.

(коэффициенты подбираются так, чтобы модель как можно лучше описывала закономерность, скрытую в обучающей выборке - чтобы теоретические значения зависимой переменной как можно меньше отличались от наблюдаемых).

Обычно уравнение записывают без указания ошибки е, ее наличие подразумевается. Однако величина ошибки является важной характеристикой построенной модели.

Качество регрессионной модели можно оценить:

- по множественному коэффициенту детерминации (показывает долю дисперсии зависимой переменной, объясняемой моделью);

- уровню значимости модели (позволяет судить о том, является ли эта доля статистически достоверной).

Статистические пакеты рассчитывают уровень значимости каждой независимой переменной (если уровень значимости меньше критических значений, то вклад данной переменной можно считать статистически значимым).

В регрессионном анализе, по возможности, необходимо использовать независимые переменные, которые слабо связаны между собой.

Однако если независимые переменные сильно коррелируют между собой, то регрессионный анализ не может отделить вклад одной переменной от вклада другой. Тогда в результате анализа вклады всех переменных оказываются незначимыми несмотря на высокую статистическую значимость всей модели в целом.

О наличии сильной корреляции между независимыми переменными может свидетельствовать, например, большая разница между их парными и частными корреляциями с зависимой переменной.

Практика

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями: