Моделирование корреляционных зависимостей

Регрессионные математические модели строятся в тех случаях, когда известно, что зависимость между двумя факторами существует и требует­ся получить ее математическое описание. А сейчас мы рассмотрим задачи другого рода. Пусть важной характеристикой некоторой сложной систе­мы является фактор А. На него могут оказывать влияние одновременно многие другие факторы: В, С, D и т. д. Мы рассмотрим два типа задач:

1) определить, оказывает ли фактор В какое-либо заметное регулярное влияние на фактор А?

2) какие из факторов В, С, D и т. д. оказывают наибольшее влияние на фактор А?

В качестве примера сложной системы будем рассматривать школу. Пусть для первого типа задач фактором А является средняя успеваемость учащихся школы, фактором В — финансовые расходы школы на хозяй­ственные нужды: ремонт здания, обновление мебели, эстетическое офор­мление помещения и т. п. Здесь влияние фактора В на фактор А не очевидно. Наверное, гораздо сильнее на успеваемость влияют другие причины: уровень квалификации учителей, контингент учащихся, уровень техни­ческих средств обучения и др.

Специалисты по статистике знают, что для того, чтобы выявить зависи­мость от какого-то определенного фактора, нужно максимально исклю­чить влияние других факторов. Проще говоря, собирая информацию из разных школ, нужно выбирать такие школы, в которых приблизительно одинаковый контингент учеников, квалификация учителей и пр., но хо­зяйственные расходы разные (у одних школ могут быть богатые спонсо­ры, у других — нет).

Итак, пусть хозяйственные расходы школы выражаются количеством рублей, отнесенных к числу учеников в школе (руб./чел.), потраченных за определенный период времени (например, за последние 5 лет). Успевае­мость же пусть оценивается средним баллом учеников школы по результа­там окончания последнего учебного года. Еще раз обращаем ваше внима­ние на то, что в статистических расчетах обычно используются относи­тельные и усредненные величины.

Итоги сбора данных по 20 школам, введенные в электронную таблицу, представлены на рис. 6.6. На рис. 6.7 приведена точечная диаграмма, по­строенная по этим данным.

Рис. 6.6. Статистические данные


Рис. 6.7. Точечная диаграмма

Значения обеих величин: финансовых затрат и успеваемости учени­ков — имеют значительный разброс и, на первый взгляд, взаимосвязи между ними не видно. Однако она вполне может существовать.

Зависимости между величинами, каждая из которых подвергается не контролируемому полностью разбросу, называются корреляци­онными зависимостями.

Раздел математической статистики, который исследует такие зависи­мости, называется корреляционным анализом. Корреляционный анализ изучает усредненный закон поведения каждой из величин в зависимости от значений другой величины, а также меру такой зависимости.

Оценку корреляции величин начинают с высказывания гипотезы о воз­можном характере зависимости между их значениями. Чаще всего допус­кают наличие линейной зависимости. В таком случае мерой корреляцион­ной зависимости является величина, которая называется коэффициентом корреляции. Как и прежде, мы не будем писать формулы, по которым этот коэффициент вычисляется; их написать нетрудно, гораздо труднее понять, почему они именно такие. На данном этапе достаточно знать следующее:

− коэффициент корреляции (обычно обозначаемый греческой буквой р есть число из диапазона от -1 до +1;

− если это число по модулю близко к 1, то имеет место сильная корреляция, если к 0, то слабая;

− близость р к +1 означает, что возрастанию значений одного набора
соответствует возрастание значений другого набора, близость к -1
означает, что возрастанию значений одного набора соответствует
убывание значений другого набора;

− значение р легко найти с помощью Excel, так как в эту программу
встроены соответствующие формулы.

В Excel функция вычисления коэффициента корреляции называется КОРРЕЛ и входит в группу статистических функций. Покажем, как ею воспользоваться. На том же листе Excel, где находится таблица, представ­ленная на рис. 6.6, надо установить курсор на любую свободную ячейку и запустить функцию КОРРЕЛ. Она запросит два диапазона значений. Ука­жем, соответственно, В2:В21 и С2:С21. После их ввода будет выведен от­вет: р = 0,500273843. Эта величина говорит о среднем уровне корреляции.

Наличие зависимости между хозяйственными затратами школы и успеваемостью нетрудно понять. Ученики с удовольствием ходят в чис­тую, красивую, уютную школу, чувствуют там себя, как дома, и поэтому лучше учатся.

В следующем примере проводится исследование по определению зави­симости успеваемости учащихся старших классов от двух факторов: обес­печенности школьной библиотеки учебниками и оснащения школы ком­пьютерами. И та, и другая характеристика количественно выражается в процентах от нормы. Нормой обеспеченности учебниками является их полный комплект, т.е. такое количество, когда каждому ученику выда­ются из библиотеки все нужные ему для учебы книги. Нормой оснащения компьютерами будем считать такое их количество, при котором на каж­дых четырех старшеклассников в школе приходится один компьютер. Предполагается, что компьютерами ученики пользуются не только на ин­форматике, но и на других уроках, а также во внеурочное время.

В таблице, изображенной на рис. 6.8, приведены результаты измере­ния обоих факторов в 11 разных школах. Напомним, что влияние каждо­го фактора исследуется независимо от других (т. е. влияние других существенных факторов должно быть приблизительно одинаковым).

Рис. 6.8. Сравнение двух корреляционных зависимостей

Для обеих зависимостей получены коэффициенты линейной корреля­ции. Как видно из таблицы, корреляция между обеспеченностью учебни­ками к успеваемостью сильнее, чем корреляция между компьютерным обеспечением и успеваемостью (хотя и тот, и другой коэффициенты корре­ляции не очень большие). Отсюда можно сделать вывод, что пока еще кни­га остается более значительным источником знаний, чем компьютер.

Система основных понятий

 







Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: