Линейная парная регрессия

Пусть в результате испытания получены значения случайных величин Х и Y. Экспериментальные данные удобно задавать в виде корреляционной таблицы, в которой в первом столбце представлены значения с.в. Х, а в первой строке – значения с.в. Y; числа, стоящие на пересечении строк и столбцов, показывают сколько раз наблюдалась одна и та же пара чисел (xi, yj).

Рассмотрим таблицу распределения пробега автомобиля Yкм.) от количества израсходованного бензина Хл.).

           
        - - -  
          - -  
  -         -  
  - -          
           

В данной таблице, например, число 3 показывает, что пара (27, 293) наблюдалась три раза, т.е. 3 автомобиля израсходовали 27 л. бензина и при этом их пробег составил 293 км. Прочерк ” - ” означает, что пара не наблюдалась. В последней строке (столбце) указана сумма чисел, расположенных во внутренних клетках по столбцам (строкам).

Символами будем обозначать числа во внутренних клетках, - количество (частота) автомобилей израсходовавших л. бензина, - количество (частота) автомобилей, пробег которых составляет км.

В нижнем правом углу указана сумма всех частот .

Замечание. В случае интервального статистического распределения с.в.и в качестве , выбирают середины интервалов; , - частоты попадания случайной величины в данные интервалы.

Корреляционная таблица показывает, что с увеличением объема израсходованного бензина Х пробег автомобиля имеет тенденцию к повышению. Для более точного рассмотрения этой закономерности рассмотрим групповые средние:

и .

Вычислим групповые средние для нашего распределения.

.

Результаты вычислений поместим в таблице:

у            
25,2 26,75 27,82 29,52 30,5  

Результаты вычислений поместим в таблице:

х        
  273,52   304,6

На рис. 11.1 построим графики ломаных, соединив точки с координатами и .

Определение. Эмпирической линией регрессии по называется ломаная, соединяющая точки с координатами . Эмпирической линией регрессии по называется ломаная, соединяющая точки с координатами .

По виду ломаных (рис. 11.1) можно предположить наличие линейной корреляционной зависимости по (ломаная 1) и по (ломаная 2) между рассматриваемыми переменными.

Поставим задачу найти уравнения этих линий называемые теоретическими линиями регрессии.

Будем искать уравнение регрессии по в виде

. (11.1)

Неизвестные параметры и выберем таким образом, чтобы сумма квадратов отклонений эмпирических групповых средних от значений , найденных по уравнению (11.1) , была минимальной.

Исследуем функциюна минимум.

Т.к. функция является функцией двух переменных, то необходимым условием существования экстремума является равенство нулю частных производных:

.

Вычислим частные производные и приравняем их нулю:

Преобразовав и разделив каждое уравнение системы на n, получим

систему нормальных уравнений:

где , , , .

Решив эту систему, найдем искомые параметры:

, .

Определение. Угловой коэффициент прямой линии регрессии по называют коэффициентом регрессии по и обозначают :

.

Числитель : - называется выборочной ковариацией.

Знаменатель : - называется выборочной дисперсией .

Т.о. теоретическая линия регрессии по имеет вид: . (11.2)


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: