Многошаговые ( двухшаговые ) методы

Метод тяжелого шарика:

Общий вид метода тяжелого шарика:

xk+1= xk - aÑf(xk)+b(xk-xk-1)

Это разностное уравнение, полученое из ДУ, которое описывает движение шарика, катящегося по некоторой поверхности с постоянным трением.

Введение инерции r(xk-xk-1) увеличивает скорость сходимости.

Теорема (о скорости сходимости метода тяжелого шарика):

Пусть 0< l I £ Ñ2f(x) £ L I (сильная выпуклость)

0 £ b £ 1, 0< a < a(1-b)/L,

тогда существует с=const такая, что || xk - x* || £ cqk,

Без доказательства

Таким образом, метод сходится не быстрее геометрической прогрессии, как и градиентный метод; показатель геометрической прогрессии тот же, только с корнями, но применение двухшагового метода при плохой обусловленности позволяет уменьшить эту обусловленность.

Модификаций двухшагового метода- метод сопряженных градиентов.

Метод сопряженных градиентов

xk+1 = xk - ak Ñf(xk) + bk (xk-xk-1)

Отличается тем, что ak и bk зависят от шага и выбираются следующим образом:

(ak , bk) = argmin f(xk - akÑf(xk)+bk(xk-xk-1))

{a,b}

Для квадратичной функции

1. Метод сходится за конечное число шагов, не превосходящее размерности пространства состояний.

2. Градиенты в методе попарно ортогональны (Ñf(xi), Ñf(xk))=0, "i¹k

Но в Rn не может существовать более n ортогональных ненулевых векторов, поэтому для некоторого k £ n будет Ñf(xk)=0, то есть точка xk- точка минимума.

3. Последовательные направления движения pk=xk-xk-1 удовлетворяют соотношению (Api, pj ) =0 "i¹j

Определение:

Векторы pi, связанные соотношением (Api, pj ) =0, называются сопряженными или А- ортогональными.

В методе сопряженных градиентов xk является точкой минимума квадратичной функции f(x) на подпространстве, порожденном первыми k градиентами. Следовательно никакой метод, использующий только градиенты функции (точнее, в котором шаг делается по линейной комбинации предыдущих градиентов), не может сходиться быстрее, то есть метод сопряженных градиентов является оптимальным по скорости сходимости в классе методов первого порядка.

Модификация Полака-Ривьера

xk+1= xk+ akpk, где ak = argmin f(xk+ akpk ), a>0

pk= -Ñf(xk)+bkpk-1

b0 = 0

Для квадратичной функции последовательность точек xi , определенная этими формулами, совпадает с последовательностью, полученной методом сопряженных градиентов.

Эту модификацию удобнее применять для произвольных (неквадратичных) функций.

Рекомендуется применять процедуру обновления, т.е. через каждые n-шагов происходит сдвиг в направлении антиградиента.

То есть b0 = 0, затем bn=0...... bmn=0, следовательно pk= -Ñf(xk)+0*pk-1= -Ñf(xk)

(сдвиг в направлении антиградиента)

По скорости сходимости n шагов метода сопряженного градиента эквивалентны одному шагу метода Ньютона (для квадратичной функции метод сходится за один шаг).

1.4.Квазиньютоновские методы

общая структура: xk+1 = xk - gkHkÑf(xk)

1. Если Hk =I, то это градиентный метод.

2. Если Hk = (Ñ2f(xk))-1, то это метод Ньютона.

3. Если Hk = Hk (Ñf(xi), i=1..k) ® (Ñ2f(xk))-1, т.е. матрица Hk пересчитывается рекурентным способом на основе информации, полученной на k-й итерации.

Достоинство:

Не надо вычислять обратную матрицу вторых производных.

Обозначим pk = HkÑf(xk)

yk= Ñf(xk+1) -Ñf(xk),

,A>0

Тогда для квадратичной функции имеем

yk = A(xk+1-xk) = gkApk

gk pk = ykA-1,

поэтому матрицу Hk+1 (необязательно для квадратичной функции) выбирают так, чтобы выполнялось так называемое квазиньютоновское условие:

Hk+1yk= gkpk (Hk- должна стремиться к (Ñ2f(xk))-1

Метод Давидона- Флетчера- Пауэлла (ДФП)

Проверим выполнение квазиньютоновского условия:


Для квадратичной функции метод сходится за n шагов, где n – размерность пространства состояний. Скорость сходимости этого метода сверхлинейная (быстрее любой геометрической прогрессии).Сходимость глобальная.

Объединяет достоинства градиентных методов и метода Ньютона.

Процедура применения:

На очередном шаге, имея Hk, делаем шаг в направлении pk. Получаем gk (например, по методу наискорейшего спуска), получаем xk+1 , вычисляем yk и пересчитываем Hk+1 для следующего шага.

Недостаток:

(по сравнению с методом сопряженных градиентов)

Надо хранить и пересчитывать Hk размерности m´n.

Метод Бройдена-Флетчера –Шенно.

где

Примечание:

Последовательности xk, генерируемые каждым вариантом, для квадратичной функции совпадают. Существует много других модификаций приведенных квазиньютоновских методов.

1.5 Методы нулевого порядка

1. Методы апроксимации

В их основе лежит апроксимация градиента и матрицы вторых производных с помощью конечных разностей.

Пусть ej - орт j-й оси.

f (x + gej)» f(x) + ¶f/¶xjg + O(g2)

¶f/¶xj = (f(x + gej) - f(x))/ g» (f(x + gej) - f(x - gej))/ (2g)

Здесь под градиентом понимается конечная разность. Если g слишком мала, то слишком велики погрешности при вычислении производных. Если g велика, то из-из O(g2) погрешности тоже велики. Таким образом проблема этих методов- выбор g.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: