Теория рационального поведения. (Теория ожидаемой полезности)

12 13 14 15 16 17 18

Фон Нейман, О Моренштерн.

6 аксиом.

Функция ожидаемой полезности.

Лотерея:

А – множество исходов: x, y, z, …

Известны вероятности исходов: p, q, r, …

(x, p, y) – вектор с двумя возможными исходами:

x => p

y => 1-p

Лотерея обозначается следующим образом:

Средняя цена лотереи (x, p, y): xp + y(1-p)

Аксиомы рационального выбора:

А1: Все возможные исходы должны принадлежать А.

x (x A)

А2: На множестве исходов должно быть задано отношение строго предпочтения P(>), нестрогого R(), безразличия I(), причём P R, I R и они удовлетворяют двум условиям:

1) Связности, то есть либо справедливо xRy, либо yRx.

2) Транзитивности, то есть из xRy & yRz => xRz.

А3: Две лотереи ((x, p, y), q, y) и (x, pq, y), находятся в состоянии безразличия, то есть справедливо: ((x, p, y), q, y) I (x, pq, y)

А4: Если xIy, то (x, p, z) I (y, p, z).

А5: Если xPy, то xP(x, p, y)Py.

А6: Если xPyPz, то существует вероятность p, такая, что yI(x, p, z).

Теорема:

Если выполняются аксиомы А1-А6, то существует информация полезности, определяемая на множестве исходов А, для которых выполняются следующие условия:

1) xRy ó U(x) U(y).

2) U(x,p,y) = pU(x) + (1-p)U(y)

U(x) U(y), aU(x) aU(y) При a>0

Пример.

Есть два типа урн.

I I тип 3 красных 7 чёрных

I тип 6 красных 4 чёрных

700 штук 300 штук

Решение ЛПР:

d1 +350 (если угадано верно)

- 50 (если не верно)

d2 +500 (если угадано верно)

- 100 (если не верно)

Тип урны	Вероятность выбора урны	Выигрыш при выборе
Тип урны	Вероятность выбора урны	d1	d2
1	0.7	350	-100
2	0.3	-50	500

U(d1) = 0.7*350 – 0.3*50 = 230

U(d2) = -0.7*100 + 0.3*500 = 80

d1 – предпочтительнее.

Процесс выбора в ЛПР или ДР.

- личный ход. – случайных ход.

P(y1|к) 0.82 350 278 0.18 -50 P(y2|к) 230 d1 0 0.18 P(y1|к) 500 0.51 278 d2 8 -60 к 0.82 P(y2|к) -100 ч 178 350 0.49 d1 178 P(y1|ч) P(y2|ч) -50 d2 500 P(y1|ч) 158 P(y2|ч) -100

Pк(y1) = P(к|н1) = 0.6