Простая линейная регрессия связана с тем, что мы называем двумерным распределением, т.е. распределением двух переменных. Существует ли линейная связь между двумя переменными или нет? Всегда лучше использовать две переменные, нежели одну. Например, нас интересует соотношение между ростом и весом у определенной группы людей; между ценой и количеством проданного товара; возрастом служащих и их заработной платой; возрастом и весом кур; еженедельными издержками и отработанным временем в отделах; пройденной дистанцией и затраченным временем.
Первым шагом в анализе является изучение переменных: какие из них относятся к факторам, каково их влияние друг на друга. Предположим, что фермер хочет предсказать вес кур, которых он выращивает. Вес — это переменная, которую он желает предсказать, поэтому это будет зависимая переменная. Отмечать значения зависимой переменной будем на оси OY. Пусть вес курицы зависит от ее возраста. Тогда возраст — это независимая переменная, значение которой нам известно по предположению и которое мы можем использовать при оценке ее веса. Независимая переменная будет отмечаться нами на оси ОХ. Если мы установим природу связи. между возрастом и весом курицы, то сможем предсказать вес курицы в данном возрасте. Любая курица, для которой реальный вес значительно отличается от прогнозируемого, может быть подвергнута обследованию.
|
|
Теперь мы должны ответить на вопрос: как изменяется вес в зависимости от изменения возраста. Во-первых, можно предположить, что вес увеличивается с возрастом. Когда курица совсем взрослая, мы можем предположить, что ее вес с небольшими отклонениями зависит от пищи и погодных условий. Прибавка в весе и ее вес в зрелом возрасте также будет зависеть от породы и способа ее выращивания и кормления. Существует также множество других факторов, помимо возраста, влияющих на вес. Процесс исследования возможной связи переменных — зависит ли зависимая переменная у от независимой переменной х и от других факторов, которые также могут повлиять на связь, — очень важная часть статистического моделирования. Наша цель — не просто построить какую-то любую линейную регрессию, а постараться выяснить, чем объясняется вариация веса
244 4.2. Анализ данных как составная часть принятия решений