Модели с фиктивными переменными

Тема

2. Модели бинарного выбора (логит и пробит модели) – y (0 и 1)

 

Фиктивная переменная – это обязательно x (т.е. фактор)

Бинарные (0 и 1) и с большим количеством значений

Star  2,3,4,5 (4 значения)

Hot 0 и 1 (горящая или негорящая)

Price = b0+b1*time+b2*star+b3*hot

При переходе в кол-ве звёзд на 1 цена увеличивается в среднем на b2 (b2>0) при фиксированных других факторах

Из переменной star делают 4 бинарных переменных

Добавить фиктивные переменные для дискр. Переменной (в основном окне)

Star2 (1, если 2 звезды и 0 в ост. Случаях)

Star 3(1, если 3 звезды и 0 в ост. Случаях)

Star 4(1, если 4 звезды и 0 в ост. Случаях)

Star5 (1, если 5 звезд и 0 в ост. Случаях)

Любые три переменные можно включить в модель (а 4 будет базовой)

Иногда за базовую выбирают самую многочисленную, либо самую отличающуюся категорию

За базу взяла отели 5 звезд

Price = b0+b1*time+b2*star2+b3*star3+b4*star4+ b4*hot

Интерпретации

Если изначально бинарная переменная, то 1 мы интерпретируем по отношению к 0 (горящая путёвка в среднем дешевле негорящей на b2)

Star2, star3 и star4 интерпретируем по отношению к базовой, а базовая это star5

Если коэф. Отриц. говорим меньше

Если коэф. Положит. Говорим больше

 

Модель 2: МНК, использованы наблюдения 1-160

Зависимая переменная: PRICE

Робастные оценки стандартных ошибок (с поправкой на гетероскедастичность), вариант HC0

 

  Коэффициент Ст. ошибка t-статистика P-значение  
const 834,885 103,801 8,043 <0,0001 ***
DSTAR_3 −321,087 56,5475 −5,678 <0,0001 ***
DSTAR_4 −218,663 47,8444 −4,570 <0,0001 ***
HOT −726,863 44,7279 −16,25 <0,0001 ***
TIME 108,655 12,4018 8,761 <0,0001 ***

 

Среднее зав. перемен  1382,569   Ст. откл. зав. перемен  571,8167
Сумма кв. остатков  12866459   Ст. ошибка модели  288,1135
R-квадрат  0,752515   Испр. R-квадрат  0,746129
F(4, 155)  135,2950   Р-значение (F)  1,69e-49
Лог. правдоподобие −1130,627   Крит. Акаике  2271,254
Крит. Шварца  2286,630   Крит. Хеннана-Куинна  2277,498

Мы смотрим значимость по группе (группа выделена красным)- группа значима, когда хотя бы один коэф. Значим – незначимую нельзя просто убрать из группы, а можно только заменить базовой

График – переменная/коробчатая диаграмма/факторизованная

     Ящики с усами (боксплоты)

Нижняя граница– 25%

Верхняя граница – 75%

+ - это среднее

Черточка это медиана (50%)

Если будут отдельные звёздочки – это выбросы

От выбросов модель надо чистить

Однородность определяется близостью медианы и среднего

Модели с фиктивными переменными позволяют учесть специфику и не потерять кол-во наблюдений (очень мелкое разбиение по всем признакам не позволяет строить модели)

 

Если y бинарный, то речь идёт о логит и пробит моделях

Y – выжил – не выжил

Указывают некоторый порог

300 наблюдений (160 нулей, 140 злок)

Y-0-доброкач. 1 –злакочаст.

Таблица классификации

0 предсказать 1 – плохо (20) - допроверить

1 предсказать 0 – плохо (20)

0 предсказать 0 –хорошо (140)

1 предсказать 1 хорошо (120)

Посмотреть презентацию 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: