Воспользуемся данными случайной выборки из генеральной совокупности для измерения линейной связи для совокупности. Мы не знаем, является ли связь в генеральной совокупности линейной. Случайная выборка может свидетельствовать о линейности связи переменных, тогда как в действительности в генеральной совокупности связь может быть нелинейной. Такого рода возможности показаны на рис. 8.17 и 8.18.
. о
О '
.. о '
• ■ *
© о. •:•
. '• • О Выборочные
' о. донны»
а и» совокупности
. | . |
• о | |
• | • • • |
• | ' О •. |
• | . ■. 'в® • |
. о | |
• | # * • • |
• | .0. о -----------------:----------------- ► |
Рис. 8.17. Случайная выборе* Рис. 8.18. Случайная выборка
Ms генеральной совокупности, с нелинейной евввью
С линейной связью
Необходимо установить вероятность того, что линейная связь в выборочной совокупности свидетельствует о линейной связи в генеральной совокупности. В решении этой задачи нам поможет испытание гипотезы. Как в любой ситуации, где используются гипотезы, мы не можем без сомнения утверждать, что связь в генеральной совокупности совместима со связью в выборочной совокупности. Определим совместимость через испытание нулевой гипотезы. Линейная регрессия отображается в нескольких статистиках и можно провести проверку гипотезы для каждой из них, а потом сделать совокупный вывод. Нулевые гипотезы при этом формируются аналогично вышеуказанным. В данном случае нулевая гипотеза означает отсутствие линейной связи между зависимой и независимой переменными в генеральной совокупности.
КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ В ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ р Вычисление коэффициента корреляции Пирсона зависит от размера выборки. Если мы интерпретируем величину г с точки зрения выборки, то не принимаем во внимание ее размер. Вывод о связи в генеральной совокупности зависит от размера выборочной совокупности. Так, если мы получили коэффициент корреляции, например 0,90, который рассчитан для выборочной совокупности из шести единиц, и сравниваем его с таким же значением, которое было рассчитано для совокупности из двадцати единиц, то во втором случае мы более уверены, что связь в генеральной
Гл. 8. Линейная регрессия 259
совокупности — линейная. Шанс получения выборочной совокупности, в которой связь линейна, из генеральной совокупности, в которой связь не линейна, уменьшается по мере увеличения размера выборки. Коэффициент корреляции оценивается с помощью t-критерия:
Н0: Между переменными х и у не существует линейной связи, иначе говоря, независимая переменная х не помогает в предсказании значений у, т.е. р=0.
Hj: р * 0, т.е. между переменными х и у существует некая линейная связь, х помогает в прогнозировании у.
Используя эти альтернативные гипотезы, мы получим двусторонний критерий. Если бы мы решили, что р должна быть только положительным, то Hj: p>0 и мы использовали бы односторонний критерий:
V d-rJ) '
Количество степеней свободы равно (п-2), так как мы рассчитали х и у для нахождения г, используя две степени свободы, п — число пар значений выборки. Если бы нам понадобилось провести испытание при 5%-ном уровне значимости, используя двусторонний критерий, полученное значение критерия нужно сравнить с too25,(n-2) и3 Приложения 2.
Для того чтобы проиллюстрировать наши действия, вернемся к примеру 8.1. Мы получили значение коэффициента корреляции г=0,958. Тогда значение критерия:
(1 - 0.9582) °.°82