Пусть в результате испытания получены значения случайных величин Х и Y. Экспериментальные данные удобно задавать в виде корреляционной таблицы, в которой в первом столбце представлены значения с.в. Х, а в первой строке – значения с.в. Y; числа, стоящие на пересечении строк и столбцов, показывают сколько раз наблюдалась одна и та же пара чисел (xi, yj).
Рассмотрим таблицу распределения пробега автомобиля Y (в км.) от количества израсходованного бензина Х (в л.).
|
| ||||||
| - | - | - | |||||
| - | - | ||||||
| - | - | ||||||
| - | - | ||||||
|
|
В данной таблице, например, число 3 показывает, что пара (27, 293) наблюдалась три раза, т.е. 3 автомобиля израсходовали 27 л. бензина и при этом их пробег составил 293 км. Прочерк ” - ” означает, что пара не наблюдалась. В последней строке (столбце) указана сумма чисел, расположенных во внутренних клетках по столбцам (строкам).
Символами
будем обозначать числа во внутренних клетках,
- количество (частота) автомобилей израсходовавших
л. бензина,
- количество (частота) автомобилей, пробег которых составляет
км.
В нижнем правом углу указана сумма всех частот
.
Замечание. В случае интервального статистического распределения с.в.
и
в качестве
,
выбирают середины интервалов;
,
- частоты попадания случайной величины в данные интервалы.
Корреляционная таблица показывает, что с увеличением объема израсходованного бензина Х пробег автомобиля
имеет тенденцию к повышению. Для более точного рассмотрения этой закономерности рассмотрим групповые средние:
и
.
Вычислим групповые средние для нашего распределения.

.




Результаты вычислений поместим в таблице:
| у | ||||||
| 25,2 | 26,75 | 27,82 | 29,52 | 30,5 |




Результаты вычислений поместим в таблице:
| х | ||||
| 273,52 | 304,6 |
На рис. 11.1 построим графики ломаных, соединив точки с координатами
и
.

Определение. Эмпирической линией регрессии
по
называется ломаная, соединяющая точки с координатами
. Эмпирической линией регрессии
по
называется ломаная, соединяющая точки с координатами
.
По виду ломаных (рис. 11.1) можно предположить наличие линейной корреляционной зависимости
по
(ломаная 1) и
по
(ломаная 2) между рассматриваемыми переменными.
Поставим задачу найти уравнения этих линий называемые теоретическими линиями регрессии.
Будем искать уравнение регрессии
по
в виде
. (11.1)
Неизвестные параметры
и
выберем таким образом, чтобы сумма квадратов отклонений эмпирических групповых средних
от значений
, найденных по уравнению (11.1)
, была минимальной.
Исследуем функцию
на минимум.
Т.к. функция
является функцией двух переменных, то необходимым условием существования экстремума является равенство нулю частных производных:
.
Вычислим частные производные и приравняем их нулю:

Преобразовав и разделив каждое уравнение системы на n, получим
систему нормальных уравнений: 

где
,
,
,
.
Решив эту систему, найдем искомые параметры:
,
.
Определение. Угловой коэффициент
прямой линии регрессии
по
называют коэффициентом регрессии
по
и обозначают
:
.
Числитель
:
- называется выборочной ковариацией.
Знаменатель
:
- называется выборочной дисперсией
.
Т.о. теоретическая линия регрессии
по
имеет вид:
. (11.2)






