Метод главных компонент был предложен Пирсоном в 1901 году и затем вновь открыт и детально разработан Хоттелингом (1933г.) Данный метод применяется, например, для сжатия объемов хранимой информации и упрощения её интерпретации или сравнения многомерных исследуемых объектов, позволяя снизить размерность исходного признакового пространства ( - исходный признак) и перейти к новым агрегированным признакам ( -главная компонента), . При этом новые показатели представляют собой линейные комбинации исходных , коррелированных между собой, формула (1).
(1)
где и — среднее арифметическое и среднеквадратическое отклонение признака xi.;
wij - коэффициенты главных компонент, максимизирующие дисперсию yj, которые находятся из уравнения , имеющее решение, если , где S- ковариационная (или корреляционная) матрица;
- собственные числа матрицы S - равны дисперсиям проекций множества объектов на оси главных компонент (или диагоналям эллипса рассеяния), рисунок 1. На рисунке 1 “p” точек сосредоточены в трехмерном пространстве двух систем координат: переменных x1, x2, x3 и главных компонент у1, у2, у3. При этом оси ОУ1, ОУ2, ОУ3 проходят через центр тяжести эллипсоида рассеяния.
|
|
Традиционный алгоритм расчета главных компонент включает переход от исходной матрицы наблюдений Х к ковариационной (или корреляционной) матрице S между исходными признаками , далее к расчету собственных чисел . Основываясь на наибольших собственных числах, наилучшим образом объясняющих исходное пространство признаков, производится переход к главным компонентам путём определения их коэффициентов wj= (w1j,...,wpj) ', максимизирующих дисперсию проекций множества объектов на оси главных компонент. Таким образом, выбираются только те главные компоненты, изменчивость которых покрывает большую часть изменчивости .
Рисунок 1 – Диаграмма рассеяния x1, x2, x3
3. ПРИМЕР ПРАКТИЧЕСКОЙ РЕАЛИЗАЦИИ МЕТОДА ГЛАВНЫХ КОМПОНЕНТ С ИСПОЛЬЗОВАНИЕМ СИСТЕМЫ GRETL
Рассмотрим задачу, стоящую перед международным рейтинговым агентством, например, Standard&Poor's или Moody's Investors Service по формированию рейтинга устойчивого развития предприятия (обобщённого показателя устойчивости предприятия для их сравнения) на примере компаний Ford Motor Company и General Motors.
Пусть устойчивое предприятие – это компания, существующая более 100 лет, а к составляющим устойчивого развития относятся:
1. Финансовая составляющая, y1;
2. Продукт и потребители, y2;
3. Качество отношений с персоналом, y3;
4. Окружающая среда и безопасность, y4.
Тогда предприятие – это многомерный объект, характеризующийся вектором функций а=(y1, y2, y3, y4)', где каждый элемент вектора yi – главная компонента (с наибольшим вкладом), определяемая набором исходных признаков . Тогда собственное число , соответствующее каждому yi (i=1..4), является рейтингом предприятия в соответствующей области (1,2,3 или 4), а средняя арифметическая значений собственных чисел (соответствующих y1, y2, y3, y4) составит обобщённый показатель (рейтинг) устойчивого развития предприятия в целом. Сравним данные рейтинги для компаний Ford Motor Company и General Motors с использованием пакета GRETL.
|
|
3.1. Исходная информация
Автомобильная корпорация Ford Motor Company (ОАО) www.ford.com была основана в 1903 году Генри Фордом и одна из немногих пережила Великую Депрессию, постоянно находясь под контролем одной семьи в течение более 100 лет, стала одной из крупнейших и наиболее прибыльных автомобилестроительных компаний мира. Компания получила известность как первая в мире применившая классический автосборочный конвейер. Штаб-квартира Ford находится в Мичигане (США), компания является производителем и дистрибьютором автомобильной техники на 200 рынках в шести странах мира, имеет более 280000 работников и более 100 заводов по всеми миру. Компания выпускает широкий спектр легковых и коммерческих автомобилей под марками Ford, Jaguar, Land Rover, Lincoln, Mercury, Volvo, Aston Martin, Mazda. Ford — третий по объёму выпуска автопроизводитель в мире после General Motors и Toyota. В настоящее время президентом компании и исполнительным директором является Alan Mulally, а председателем совета директоров - William Clay Ford. Основными конкурентами предприятия являются General Motors, Toyota Motor Corp, DaimlerChrysler, PSA/Peugeot-Citroën, Hyundai Motor, Honda Motor Co., Nissan Motor Co., Renault SA.Выручка компании в 2007 году составила $172,455 млрд, чистый убыток — $2,7 млрд.
General Motors (GM) (ОАО). http://www.gm.com – один из основных конкурентов Ford Motor Company, основана в 1908 году в Мичигане (США). В настоящее время имеет около 284000 работников, с 1931 года является крупнейшей в мире (по объёму выпуска) автомобилестроительной компанией с заводами в более 33 странах мира. Председатель совета директоров и главный управляющий — Рик Вагонер (Rick Wagoner). Производимые автомобильные марки: Buick, Cadillac, Chevrolet, Hummer, Opel, Pontiac, и т.д. В 2007 году чистый убыток составил $38,7 млрд, а выручка составила $181 млрд.
Определим исходные признаки для каждой составляющей устойчивого развития предприятия:
1. Финансовая составляющая (y1):
X11 - Net income, bln$ (Чистая прибыль, млрд. $);
X21 - Sales&Revenues, bln$ (Выручка, млрд.$);
X31 - Stockholders’ Equity, bln$ (Акционерный капитал, млдр.$)
X41 - Gross cash, bln$ (Валовая наличность, млдр.$)
X51 - Cash dividends, $ (Наличные дивиденды, $)
X61 - Total assets, bln$ (Совокупные активы, млдр.$)
X71 - Shareholders return, % (Доход акционеров, %)
2. Продукт и потребители (y2):
X12 - Market share US, % (Доля рынка в США, %);
X22 - Market share Europe (Доля рынка в США, %);
X32 - Customer satisfaction, % (Удовлетворённость потребителя, %)
X42 - Customer Loyalty, US % (Верность потребителя, США %)
X52 - Vehicles sold, units (Объём продаж, шт.)
3. Качество отношений с персоналом (y3):
X13 - Personnel full-time (Численность персонала на полной ставке,чел.);
X23 – Employee satisfaction, % (Удовлетворённость работников, %);
X33 - Laybor cost per hour, $ (З.пл. в час, $)
4. Окружающая среда и безопасность (y4):
X14 - U.S. Corporate Average Fuel Economy (Экономия топлива, США, миль на галлон);
X24 – Energy efficiency index, % (Индекс эффективности энергопотребления, %);
X34 - Charitable contributions, mln $ (Благотворительные взносы,млн.$);
X44 - Global Fatalities (Число смертельных случаев на производстве).
Фактические значения вышеперечисленных показателей для компании Ford Motor Company представлены в таблицах 1-4 соответственно, источником данных являются годовые отчёты по устойчивому развитию www.ford.com/go/sustainabilityглавных ки финансовые отчёты http://www.ford.com/about-ford/investor-relations/company-reports предприятия, размещённые на его вэб-сайте. Фрагменты данных отчётов представлены в приложении А. Знак «*» обозначает отсутствие данных и должно быть удалено перед обработкой в Gretl
|
|
Таблица 1 – Показатели финансовой составляющей компании Ford
Year | Net income, bln$ | Sales& Revenues,bln$ | Stockholders equity,bln$ | Gross cash,bln$ | Cash dividents,$ | Total assets,bln$ | Shareholders return,% |
0.9 | 7.633 | 25.3 | 0.4 | 281.851 | -39 | ||
0.2 | 166.095 | 13.459 | 25.9 | 0.4 | 303.361 | ||
3.038 | 172.316 | 17.437 | 23.6 | 0.4 | 299.686 | -6 | |
1.44 | 176.896 | 13.442 | 25.1 | 0.4 | 275.936 | -45 | |
-12.613 | 160.123 | 3.465 | 33.9 | 0.25 | 290.217 |
Таблица 2 – Показатели составляющей «Продукт и потребители»компании Ford
Year | Market share US, % | Market shareEur, % | Customer satisfaction, % | Customer loyalty US, % | Vehicles sold, units |
21.1 | 10.9 | 48.5 | |||
20.5 | 10.7 | 49.9 | |||
19.3 | 10.9 | 47.5 | |||
18.2 | 10.8 | 45.2 | |||
17.1 | 10.6 | 43.3 |
Таблица 3 - Показатели составляющей «Качество отношений с персоналом»компании Ford
Year | Personnel full-time | Employee satisfaction, % | Laybor cost per hour, $ |
52.6 | |||
* | 61.4 | ||
* | 62.9 | ||
64.9 | |||
70.5 |
Таблица 4 - Показатели составляющей «Окружающая среда и безопасность» компании Ford
Year | Fuel economy, US | Energy efficiency index, % | Charitable contributions, mln$ | Global Fatalities |
23.2 | 89.7 | |||
23.6 | 91.7 | |||
22.8 | 87.8 | |||
24.1 | 83.4 | |||
23.8 | 78.4 |
Создадим на рабочем столе файл Excel с исходными данными dataFord.xls, перенеся каждую из вышеприведённых таблиц 1-4 на отдельный лист созданной рабочей книги Excel как показано на рисунке 2.
Рисунок 2 - Файл исходных данных dataFord.xls
Импортируем созданный файл в пакет Gretl, выбрав пункт меню Open data\Import\Excel\ и файлdataFord.xls на рабочем столе(рисунок 3).Затем в открывшемся окне нажмём кнопку ОК, подтвердив заданные по умолчанию настройки начала импорта с первой ячейки А1 первого листа Finance файла dataFord.xls (рисунок 4). Получим набор данных из семи переменных x11….x71 таблицы 1.
Рисунок 3 – Импорт исходных данных из файла dataFord.xls
Рисунок 4 – Построение набора данных Ford.gdt
Для каждой переменной введём описание «Finance xi1», i=1…7. Выберем пункт меню Variable\Edit Attributes и заполним поле Description (рисунок 5).
Рисунок 5 – Ввод описания переменных
Добавим в созданный набор данных следующий лист “Product” файла dataFord.xls, выбрав пункт меню File\Append Data\Excel и соответствующий файл (рисунок 6). В открывшемся окне выберем лист «Product» на нажмём кнопку ОК. В результате данные таблицы 2 будут добавлены к созданному набору данных Gretl (рисунок 7).
|
|
Аналогичным описанному выше способу добавим описания переменных «Product xi2», i=1…5. Повторим соответствующие действия добавления для листов “Personnel” и “Ecology”.
Сохраним полученный набор данных, выбрав пункт меню File\Save data и введя имя файла Ford.gdt.
Откроем введённые данные в режиме просмотра и редактирования, выбрав пункт меню View\Icon View и дважды щёлкнув иконку Data Set.
Рисунок 6 – Добавление дополнительных данных в созданный набор
Рисунок 7 – Добавление данных таблицы 2 к созданному набору