Для целей статистического анализа и типа данных подходят методы корреляционно-регрессионного анализа. Выборка проведена по 30 зарубежным актерам.
Для эконометрических исследований в качестве факторов были выбраны основные характеристики, влияющие на годовой доход актёров (таблица 1).
Таблица 1. Условные переменные исходных факторов
Условное обозначение | Факторные переменные |
Y | Годовой доход (млн. долл.) |
v1 | Пол |
v2 | Возраст (г) |
v3 | Количество фильмов, в которых был задействован актер в 2012 г. (шт.) |
v4 | Количество ТВ-шоу, в которых был задействован актер в 2012 г. (шт.) |
v5 | Средний рейтинг всех фильмов, в которых был задействован актер |
v6 | Рейтинг популярности актёров |
В качестве результирующего показателя был выбран годовой доход актёров. Остальные факторы (v1-v6) - объясняющие переменные.
Качественные переменные для корреляционно-регрессионного анализа необходимо представить в виде дискретных переменных.
Пол актёров легко закодировать дискретной бинарной переменной (1 - мужчина, 0 - женщина).
Исходные данные о различных факторах, влияющих на годовой доход модели, помещены в сводную таблицу (приложение А).
2.2
Проверка распределения на нормальность. Визуализация данных
Для проведения корреляционно-регрессионного анализа необходимо выполнение основных предпосылок анализа. Проверить соответствие исходной выборки этим требованиям можно с помощью встроенных графиков пакета Gretl-1.9.12: расчет вариационных характеристик и гистограммы зависимого признака.
Описательная статистика, использованы наблюдения 1 - 30 для переменной Y (использовано 30 наблюдений)
· Среднее 27,367
· Медиана 26,500
· Минимум 9,0000
· Максимум 75,000
· Стандартное отклонение 14,279
· Вариация 0,52177
· Асимметрия 1,4219
· Эксцесс 2,8408
Так как коэффициент вариации 0,52177 больше 0,33, то выборка считается неоднородной. Для этого нам необходимо избиваться от аномальных наблюдений, то есть от актеров с самыми большими и с самыми низкими доходами за год. Этим требованиям соответствуют следующие наблюдения: Tom Cruise, Harrison Ford, Robert Downey Jr., Reese Witherspoon, Keira Knightley.
Рассчитаем описательную статистику для новой выборки (приложение Б).
Описательная статистика, наблюдения 1 - 25 для переменной Y (использовано 25 наблюдений)
· Среднее 25,080
· Медиана 26,500
· Минимум 11,000
· Максимум 37,000
· Стандартное отклонение 8,2912
· Вариация 0,33059
· Асимметрия -0,28071
· Эксцесс -1,0914
Коэффициент вариации 0,33059 не существенно превышает 0,33, выборка однородна, можно продолжать исследование.
Проведем проверку на нормальность распределения, используя критерий проверки χ2.
Сформулируем первоначальные гипотезы:
: распределение зависимого признака нормально;
: распределение не является нормальным.
Значение составило 2,534, принимается нулевая гипотеза о нормальном распределении с вероятностью ошибки р = 0,28162. Тот факт, что распределение зависимого признака является нормальным, подтверждается и графиком (рис.1.).
Рис. 1. Тест на нормальное распределение
Построим график квантилей нормального распределения для новой выборки (приложение Б). Можно увидеть, что точки расположены близко к 45-градусной базовой линии.
Рис. 2. График квантилей нормального распределения