l Почему прямая?
l Если наше облако точек напоминает очертания некоторой линии, то можно предполагать, что мы видим на диаграмме рассеяния именно такую по форме зависимость, однако искаженную воздействием как случайных, так и неучтенных факторов, вызывающим отклонение точек от теоретической формы.
l Поскольку наиболее простой формой зависимости в математике является прямая, то в корреляционном и регрессионном анализе наиболее популярны линейные модели.
l Однако иногда расположение точек на диаграмме рассеяния показывает нелинейную зависимость либо вообще отсутствие связи между признаками.
l Примеры нелинейной связи (рис. а) и отсутствия связи (рис. б) между признаками X и Y
l Попробуем провести прямую линию через облако точек на диаграмме рассеяния. Таких линий можно нарисовать множество, причем на глаз невозможно определить, какая из них лучше подходит для описания диаграммы рассеяния.
l Однако существует метод, который позволяет совершенно точно вычислить положение прямой линии, наилучшим образом проходящей через облако точек.
l Это – метод наименьших квадратов.
l Вычисляемая с его помощью прямая линия называется линией регрессии. Она характеризуется тем, что сумма квадратов расстояний от точек на диаграмме до этой линии минимальна (по сравнению со всеми возможными линиями).
l Таким образом, линия регрессии дает наилучшее приближенное описание линейной зависимости между двумя переменными.