Иногда выборка наблюдений состоит из двух или более подвыборок, и трудно установить, следует ли оценивать одну объединенную регрессию или отдельные регрессии для каждой подвыборки.
Предположим, что ставится задача не только построить модель зависимости цены p квартиры от факторов x 1, x 2, …, xm, но и решить вопрос существенности (или несущественности) влияния фактора: «квартира в панельном или кирпичном доме». Другими словами, необходимо выяснить, можно ли считать одним и тем же уравнение регрессии для панельных и кирпичных домов или необходимо всю имеющуюся выборку разбить на две части (одну для панельных домов, а другую для кирпичных) и построить для каждой из них свое уравнение регрессии.
Формальный статистический тест для оценки объединенной регрессии в сравнении с регрессиями для подвыборок был предложен Грегори Чоу.
Суть теста Чоу заключается в следующем:
1) полная выборка объема n разбивается на две подвыборки А и В объемами n 1 и n 2 соответственно (n = n 1 + n 2);
2) для полной выборки, а также для подвыборок А и В оцениваются параметры линейных уравнений регрессии:
|
|
, (0)
, (1)
; (2)
3) выдвигается и проверяется с помощью F -статистики гипотеза о равенстве друг другу соответствующих коэффициентов регрессии, а именно гипотеза , .
Наблюдаемое значение статистики вычисляется по выборочным данным на основании формулы
,
где – сумма квадратов отклонений выборочных значений от соответствующих значений, рассчитанных по уравнению регрессии (j), , , – объем выборки.
Построенная F -статистика имеет распределение Фишера с числами степеней свободы и . Если , то гипотеза отклоняется. В этом случае моделирование следует осуществлять с помощью кусочно-линейной модели. Если же , то нет оснований отклонять нулевую гипотезу, а значит, ее моделирование следует осуществлять с помощью единого для всей совокупности уравнения.