Методу зменшення факторного простору

Для оцінки рівня розвитку регіону можна підійти з двох позицій. По-перше, це побудова рейтингу регіону. По друге, аналіз регіону при взаємодії регіону з іншими регіонами України. Для дослідження рівня розвитку регіону з першої позиції слід використовувати методи таксономічного аналізу, а саме, методи рівні розвитку. Для дослідження з другої позиції слід використовувати методи кластерного аналізу, то таких методів відносяться методи ієрархічного моделювання та метод куль.

Проаналізуємо існуючи методи.

Перш ніж використовувати якій-небудь з методів кластерного аналізу необхідно виконати три процедури:

1. Виділити набір властивостей, що характеризують явище. Цей набір властивостей визначається матрицею з розмірністю nxm (X={xij}, i=1., n, j=1., m), де n - кількість рядків в матриці, m - кількість стовпців матриці. Залежно від мети кластеризації в рядках даної матриці можуть знаходитися як об'єкти, так і ознаки цих об'єктів.

2. Позбутися одиниці вимірювання властивостей. Це проводиться шляхом стандартизації по формулі (2.1)

(2.1)

де x_ij - i-я реалізація j-ка ознаки

- середнє арифметичне j-го ознаки

dj - стандартне відхилення j-го ознаки

3. Обчислити матрицю відстаней між об'єктами.

При аналізі чинникового або об'єктного простору може виникнути ситуація, коли які-небудь ознаки або об'єкти не несуть ніякої інформаційної цінності. Тобто кількісні характеристики ознак або об'єктів практично не змінюються (мають постійні або майже постійні значення). Для цього слід проводити перевірку на абсолютну і відносну інформаційну цінність властивостей.

Введемо поняття абсолютної і відносної інформаційної цінності властивостей:

1) Абсолютна цінність властивості характеризується коефіцієнтом варіації і визначається по формулі

(2.2)

де і, j - число реалізацій ознак (або об'єктів).

2) Відносна інформаційна цінність властивостей - це цінність властивостей щодо загальної сукупності ознак (об'єктів). Вона визначається:

(2.3)

Після аналізу розрахованих показників, вибравши порогову, позитивну величину e, можна відкинути ті ознаки (об'єкти які не несуть для нас інформаційній цінності) по наступних критеріях.

£ e або w_j£ e (2.4)

Властивості, що задовольняють одній з цих умов, будуть практично незмінні і як наслідок невпливові на процес побудови кластерів. Внаслідок цього їх можна виключити з розгляду.

Тобто, завдяки описаним вище попереднім операціям можна позбавитися від одиниць вимірювання і зменшити інформаційний простір, шляхом виключення не істотних ознак (об'єктів).

Останньої з попередніх операцій, є побудова матриці відстаней. Ця матриця виглядає таким чином.

(2.5)

де сsu - відстань між об'єктами s і u .

Ця відстань може розраховуватися різними способами:

1) Евклідово відстань

2) Метрика абсолютних відстаней

3) lr - норма

4) Відстань Махалонобіса

5) Відстань Хелвига та ін.

Після проведення попередніх операцій необхідно приступати до розбиття сукупності об'єктів на однорідні підмножини - кластери. Для цього можна використовувати різні методи кластеризації. Це такі методи як: методи ієрархічної кластеризації, методи з використанням теорії графів і інші.

Розглянемо метод рівня розвитку. За допомогою даного методу визначається рівень розвитку об'єктів. Існують звичайний і модифікований рівні розвитку. При звичайному рівні розвитку, чим більше цей показник, тим менш розвинутий об'єкт. В модифікованому - навпаки, чим краще об'єкт менше показник, тим краще розвинутий. За допомогою показника рівня розвитку, можна збудувати об'єкти в порядку зростання, або убування даного показника.

Перед застосуванням даного методу необхідно також розбити сукупність ознак на стимулятори і дистимулятори.

Стимуляторами називаються ознаки, що впливають на об'єкт, при збільшенні значення яких, збільшується позитивний вплив на об'єкт. Дистімулятори надають негативна дія на об'єкт. Нам необхідно позбувся дистимуляторов. Це проводитися за допомогою формули:

(2.6).

Після виключення дистимуляторів необхідно провести попередні операції.

Наступним кроком буде побудова еталонного об'єкту (верхнього полюса) (Р0) по отриманій матриці відстаней

Р0= (2.7)

де di, j - елемент матриці відстаней.

Після цього кроку проводимо розрахунок скоректованої матриці відстаней між нашим еталонним об'єктом і іншими об'єктами

’=D (P0, об'єкт). (2.8)

Розраховуємо і d виходячи з формул:

(2.9)

(2.10)

де N - кількість об'єктів.

Задаючи довірчий інтервал в 2d, одержуємо

(2.11).

На підставі отриманих результатів розраховуємо звичайний і модифікований коефіцієнти рівня розвитку M:

- звичайний (2.12)

M*=1-Mi - модифікований.

Окрім методу розвитку для аналізу рівня розвитку регіону бажано використовувати метод, що дозволи визначити кластери регіону. Одним з таких методів є метод куль. Розглянемо його більш детально.

Постанова задачі. Кожний об'єкт s характеризується набором ознак:

={xs1, xs2., xsn}. (2.13)

Сукупність об'єктів утворює безліч об'єктів

W={P1, P2., Pn}. (2.14) )

На цій множині будується куля радіусом r, який визначається двома способами:

, (2.15)

де сsu - відстань від об'єкту s до об'єкту u.

, де, і (2.16)

Потім визначається число точок Pr, які знаходяться усередині кулі, ці крапки задовольняють умові.

<r (2.17)

Введемо поняття потужності. Потужністю ls підмножини W_s називається величина, яка показує, яка кількість елементів стовпці s задовольняє умові (2.17). При виборі максимальної потужності, ми отримаємо першу виділену підмножину

(2.19)

Якщо є декілька підмножин з максимальною потужністю, тоді необхідно знайти підмножину, яка менш всіх видалено від початку координат, тобто необхідно порахувати відстань між початком координат і центром кулі і знайти мінімальне. Таким чином, підмножина вибиратиметься відповідно до формули:

(2.20)

Позначимо першу вибрану підмножину через W_s1. Тоді формування наступного кластера проводитиметься з множини W\W_s1.

Після закінчення всіх ітерацій ми отримаємо кластери, які містять в собі елементи зі схожими властивостями. При такій кластеризації можуть вийти не рівнозначні кластери. Наприклад, в одному кластері міститиметься 20 елементів в іншому тільки три. При отриманні таких результатів, необхідно більший кластер розглянути як окрему множину, побудувати матрицю відстаней і провести заново кластеризацію.

Якщо об’єкти містять не тільки кількісні, а й якісні характеристики, то необхідно використовувати інші методи кластерізації. Одним з таких методів є метод аналізу ієрархій.

Для розбиття елементів, що характеризуються змішаним складом ознак, на групи більш переважно працювати не з відстанями, а із заходами схожості, оскільки коефіцієнт схожості для об'єктів з якісним складом ознак - більш точна характеристика їх однорідності, ніж відстань між ними. Враховуючи цей факт, сформулюємо математичну модель задачі кластеризації.

Постановка задачі. Безліч споживачів, яка необхідна розбити на кластери має наступний вигляд:

={qi}, i=1..n (2.21)

Функція, що визначає рівень схожості об'єктів ql і qk, наступна:

(ql, qk) (2.22)

Крім того, існує поріг схожості (S0), що показує деяке значення, обмежуюче об'єднання різних елементів в групу схожих. А також функція мети (F), екстремум якої ми хочемо досягти, застосовуючи кластеризацію.

Тоді математична модель задачі кластеризації можна записати так:

(2.22)

Як було сказане вище, рівень схожості по кількісних і якісних чинниках підраховується окремо.

Коефіцієнт схожості об'єктів по кількісних ознаках отримаємо по наступній формулі:

=A/(A+D (Xi, Xj)) (2.23)

де D (Xi, Xj) - відстань між споживачами qi і qj, обчислене по наборах кількісних ознак Xi, Xj_/

А - константа, яку можна прирівняти середньому значенню D (Xi, Xj).

Відстань D між регіонами можна знайти по наступній формулі:

D (Xi, Xj) = [å(xik-xjk)²]^1/2(2.24)

де xik, xjk - величина к-тої кількісної характеристики товару відповідно для i-го або j-го споживача.

Коефіцієнт схожості регіонів по якісних характеристиках товару обчислимо по наступній формулі:

=å(bk·gijk)/ åbk (2.25)

де bk - коефіцієнт значущості к-той якісної характеристики товару.

При рівнозначності всіх характеристик формула (2.25) перетвориться таким чином:

Sij2=ågijk)/ r (2.26)

де r - кількість якісних характеристик товару.=f (yik, yjk) - функція, визначальний ступінь збігу к-го чинника для i-го і j-го споживача.

В найчастішому випадку якісний чинник може мати лише два значення (або товар володіє певною характеристикою, або ні). Тоді функція gijk визначатиметься таким чином:

(2.27)

Після знаходження коефіцієнтів схожості по кількісних і якісних характеристиках товару будуються відповідні матриці схожості споживачів.

З'єднану матрицю схожості споживачів по кількісних і якісних характеристиках товару побудуємо за допомогою вагової функції, що враховує число кількісних ознак t і число якісних ознак r:

=Sij1·t/(t+r)+ Sij2·r/(t+r) (2.28)

Отримавши з'єднану матрицю схожості ми можемо перейти до угрупування споживачів. Для здійснення цього етапу нами був вибраний наступний метод.

Зі всієї множини Q вибирають споживача qj, якнайменше схожого з іншими. Для цього порівнюють відповідні йому Sij, (j=1..m) з порогом схожості S0.

Слід вказати, що вибір S0 можна здійснити по наступній формулі:

=ååSij/m2 (2.29)

Споживач qi, у якого по якнайменшій кількості чинників виконується нерівність Sij¹S0, (j=1...m) буде якнайменше схожим. З цим споживачем формуються всілякі максимальні кластери першого рівня Q1 з урахуванням наступного правила: "qi, qj Î Q1 Sij³S0. Для отриманих кластерів першого рівня визначають залишки Qост1.

Далі йде процедура, що повторюється. В залишку кожної з максимальних груп рівня вибирають споживача, самого схожого із споживачами відповідної максимальної групи, тобто вибираємо qi Î Q _ост1, для якого по найбільшому числу споживачів qj Î Q1 виконується нерівність Sij³S0. З цим споживачем будуються максимальні кластери наступного рівня.

Процедура повторюється до тих пір, поки не виконуватиметься рівність

остn=0 (2.30)

тобто поки не буде порожнім залишок. Це означає, що відбулося розділення на кластери всіх споживачів.

У результаті виходить декілька гілок кластеризації, кожну з яких можна вибрати як оптимальну.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями: