Задание По данным об экономических результатах деятельности российских банков(www.finansmag.ru), по данным Банка России (www.cbr.ru/regions), Федеральной службы государственной статистики (www.gks.ru), а также данным изсборников «Национальные счета России» и «Регионы России» (см. www.gks.ru.) выполните следующие задания:
1. Определите параметры уравнения парной линейной регрессии и дайте интерпретацию коэффициента регрессии.
2. Рассчитайте линейный коэффициент корреляции и коэффициент детерминации, поясните смысл этих показателей.
3. С вероятностью 0,95 оцените статистическую значимость каждого параметра и уравнения регрессии в целом.
4. С вероятностью 0,95 постройте доверительный интервал ожидаемого значения результативного признака в предположении, что значение признака фактора увеличится на 5% относительно своего среднего уровня.
Исходные данные для задачи № 1 представлены в книге Excel «МУ.xlsx».
В качестве независимого фактора Х выберем параметр «Средства предприятий и организаций, млн руб», а в качестве зависимого признака Y – «Кредиты предприятиям и организациям, млн руб».
До проведения статистического анализа необходимо установить единую размерность фактора и признака, т.к. средства предприятий указаны в процентах от параметра «Работающие активы». С этой целью значение параметра «Работающие активы» (столбец D листа «Задача 1») умножим на процентную долю фактора «Средства предприятий и организаций» (столбец B листа «Задача 1»). Результат поместим в столбец Е (рис. 1).

Рис. 1. Предварительная подготовка данных.
В связи с тем, что Excel не очень удобная программа со множеством ограничений, скопируем столбец С в столбец F.
Представим результат в виде точечной диаграммы X-Y следующей последовательностью действий: лента «Вставка», пункт «Диаграммы», «Точечная» (рис. 2).
Затем выбрать пункт «Добавить» и выделить два последних столбца (рис. 3).
В результате получим следующую точечную диаграмму связи фактора с признака (рис. 4).

Рис. 2. Вставка рисунка

Рис. 3. Выбор данных.

Рис. 4. Предварительный график.
Из рис. 4 можно заметить, что две точки существенно удалены от основной группы. Эти данные необходимо удалить, как неоднородные.
Анализ таблицы показал, что они относятся к Сбербанку (строка 2) и Газпромбанку (строка 4). Скопируем таблицу, перенесем ее на другой лист (Задача 1_1) и удалим эти строки.
Снова построим диаграмму (рис. 5).
Визуальный анализ показывает, что имеются еще две точки, выбивающиеся из основной группы со значением признака Y свыше 100000. Это ВТБ (строка 2), Альфа-банк (строка 3).
Снова перенесем данные на лист «Задача 1_2», удалим эти строки и построим график (рис. 6).

Рис. 5. Второй вариант набора данных

Рис. 6. Третий вариант набора данных
Диаграмма не дает оснований удалить какие-либо данные, поэтому оставляем их без изменений.
Теперь приступаем к выполнению задания.
Строим линейное уравнение регрессии при помощи мастера анализа данных (лента «Данные», пункт «Анализ данных»).
Вначале определяем статистические характеристики переменных:
«Анализ данных» → «Описательная статистика». В панели описательной статистики выбираем входной интервал (столбцы E и F), группирование – «по столбцам», «Метки в первой строке», «Выходной интервал» - любая ячейка в столбце H, «Итоговая статистика» (рис. 7).

Рис. 7. Заполнение панели «Описательная статистика».
Результаты показаны в табл. 1.
Таблица 1.
Итоговая статистика
| Средства предприятий и организаций, млн руб | Кредиты предприятиям и организациям, млн руб. | ||
| Среднее | 2246,972 | Среднее | 6868,055 |
| Стандартная ошибка | 293,3864 | Стандартная ошибка | 738,0496 |
| Медиана | 951,09 | Медиана | |
| Мода | #Н/Д | Мода | |
| Стандартное отклонение | 4159,47 | Стандартное отклонение | 10463,66 |
| Дисперсия выборки | Дисперсия выборки | 1,09E+08 | |
| Эксцесс | 28,5864 | Эксцесс | 11,14178 |
| Асимметричность | 4,767536 | Асимметричность | 3,20784 |
| Интервал | 34308,36 | Интервал | |
| Минимум | 5,04 | Минимум | |
| Максимум | 34313,4 | Максимум | |
| Сумма | 451641,3 | Сумма | |
| Счет | Счет |
Уравнение регрессии также получаем при помощи мастера «Анализ данных», пункт «Регрессия».
Пример заполнения панели «Регрессия» представлен на рис. 8. При этом не забываем, что признак Y – это столбец Е, а фактор Х – столбец F.
Результаты расчета можно видеть на рис. 9, они приведены в табл. 2…табл.4.

Рис. 8. Заполнение панели «Регрессия».
Таблица 2.
| Регрессионная статистика | |
| Множественный R | 0,874631 |
| R-квадрат | 0,764979 |
| Нормированный R-квадрат | 0,763804 |
| Стандартная ошибка | 5827,586 |
| Наблюдения |
Таблица 3.
| Дисперсионный анализ | |||||
| df | SS | MS | F | Значимость F | |
| Регрессия | 2,21E+10 | 2,21E+10 | 650,9865 | 8,3E-65 | |
| Остаток | 6,79E+09 | ||||
| Итого | 2,89E+10 |
Таблица 4.
| Коэффици-енты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | |
| Y-пересечение | a=1709,052 | 464,6013 | 3,678534 | 0,000302 | 792,906 | 2625,197 |
| Средства предприятий и организаций, млн руб | b=2,364838 | 0,092686 | 25,51444 | 8,3E-65 | 2,182071 | 2,547606 |
В табл. 2 указано, что множественный коэффициент корреляции R=0,875. Таким образом изменение признака Y на 87,5% объясняется изменением признака X. Дисперсионный анализ (табл.3) показывает, что значимость критерия Фишера составляет 8,3∙10-65, что существенно ниже, чем 1-α=1-0,95=0,05. Это говорит о тесной линейной связи и адекватности уравнения регрессии.
По табл. 4 можно написать уравнение регрессии:

p -значение коэффициентов уравнения регрессии во много раз меньше 5%, следовательно все они значимы.
Построим теперь прогноз признака Y при значении фактора Х, равном 105% от его среднего значения.
По данным табл. 1
, следовательно 105% от него равны 
По уравнению регрессии найдем значение Y:

Ошибку прогноза найдем по формуле

Здесь Sy – среднее квадратическое отклонение признака Y; Sx – среднее квадратическое отклонение фактора Х; n – объем выборки; х – значение признака, для которого необходимо вычислить прогноз;
- среднее значение фактора Х.
Все эти значения представлены в табл. 1:

Большую величину ошибки можно объяснить очень большими эксцессами и асимметриями. Подавляющее большинство точек сгруппированы около начала координат.