Тест Чоу

Иногда выборка наблюдений состоит из двух или более подвыборок, и трудно установить, следует ли оценивать одну объединенную регрессию или отдельные регрессии для каждой подвыборки.

Предположим, что ставится задача не только построить модель зависимости цены p квартиры от факторов x ₁, x ₂, …, x_m, но и решить вопрос существенности (или несущественности) влияния фактора: «квартира в панельном или кирпичном доме». Другими словами, необходимо выяснить, можно ли считать одним и тем же уравнение регрессии для панельных и кирпичных домов или необходимо всю имеющуюся выборку разбить на две части (одну для панельных домов, а другую для кирпичных) и построить для каждой из них свое уравнение регрессии.

Формальный статистический тест для оценки объединенной регрессии в сравнении с регрессиями для подвыборок был предложен Грегори Чоу.

Суть теста Чоу заключается в следующем:

1) полная выборка объема n разбивается на две подвыборки А и В объемами n ₁ и n ₂ соответственно (n = n ₁ + n ₂);

2) для полной выборки, а также для подвыборок А и В оцениваются параметры линейных уравнений регрессии:

, (0)

, (1)

; (2)

3) выдвигается и проверяется с помощью F -статистики гипотеза о равенстве друг другу соответствующих коэффициентов регрессии, а именно гипотеза , .

Наблюдаемое значение статистики вычисляется по выборочным данным на основании формулы

где – сумма квадратов отклонений выборочных значений от соответствующих значений, рассчитанных по уравнению регрессии (j), , , – объем выборки.

Построенная F -статистика имеет распределение Фишера с числами степеней свободы и . Если , то гипотеза отклоняется. В этом случае моделирование следует осуществлять с помощью кусочно-линейной модели. Если же , то нет оснований отклонять нулевую гипотезу, а значит, ее моделирование следует осуществлять с помощью единого для всей совокупности уравнения.